Step 3.7 Flash :阶跃星辰开源的新一代 Flash 模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
2026年5月29日,基础大模型公司阶跃星辰(StepFun)正式发布并开源了Step 3.7 Flash模型。这是一款专为生产级Agent(智能体)打造的Flash模型,采用稀疏MoE架构,总参数196B+1.8B(ViT视觉编码器),激活参数仅11B,最高生成速度可达400 Tokens/s。模型围绕Agent、Coding、Search与多模态工作流进行了系统性优化,目标是在速度、成本、可靠执行和复杂任务处理能力之间取得更好平衡。作为继2026年2月开源的Step 3.5 Flash之后的迭代产品,Step 3.7 Flash采用Apache 2.0开源协议,权重与代码均可直接下载,支持云端与本地双部署,标志着Flash类模型正从”轻量替代品”向”生产级Agent基础设施”演进。
功能特点
- 原生多模态理解与执行:直接处理UI界面、图表、文档、图片及各类应用界面,将复杂视觉信息转化为结构化结果、代码生成和可执行任务,支持自主裁剪、放大、重读图像。
- 联网与视觉搜索增强:强化联网检索与图像搜索能力,在开放信息环境中跨文本与图像主动获取并交叉比对多源证据,信息不确定时自动发起搜索验证。
- 高可靠工具调用与编排:在长程多轮Agent工作流中稳定调用API、浏览器、终端、Office工具等外部系统,保持任务轨迹一致,显著降低跑偏和执行失败风险。
- Agent生态兼容优化:针对Claude Code、KiloCode、RooCode、OpenCode、Hermes Agent、OpenClaw等主流框架及MCP/Skills协议进行兼容适配,降低接入成本。
- 25.6万Token超长上下文:支持三档推理层级(低/中/高),适配不同性能需求场景。
优缺点
优点:
- 速度极快,400 Tokens/s的生成速度在同类模型中处于第一梯队,实测短文本场景可达320-350 Tokens/s,比Dense架构模型快3-5倍。
- 激活参数仅11B,推理成本大幅降低,输入缓存命中时仅0.27元/百万tokens,性价比突出。
- 原生多模态能力在同级别Flash模型中几乎无对手,多数竞品(如DeepSeek V4 Flash)仍为纯文本模型。
- 完全开源(Apache 2.0),支持本地部署,提供GGUF多精度量化版本,可在Mac Studio M4 Max等消费级设备运行。
缺点:
- 总参数196B属于中等规模,在通用推理能力和极致性能上与DeepSeek V4-Pro(1.6万亿参数)等旗舰模型仍有差距。
- 输出价格8.1元/百万tokens,高于部分竞品(如Qwen3.7-Max约4.05元),多模态场景下的成本优势需权衡。
- 官方基准数据尚未经独立第三方横向验证,实际生产环境稳定性有待更多用户检验。
- 长途上下文(128K以上)场景下速度会降至180-220 Tokens/s,衰减明显。
如何使用
无需编写代码即可通过以下方式快速体验:
- 在线体验:访问阶跃星辰Studio平台(studio.stepfun.com),无需配置即可在网页端直接对话和测试多模态能力。
- API调用:注册阶跃开放平台(国内用platform.stepfun.com,海外用platform.stepfun.ai),获取API Key后通过标准接口调用,兼容OpenAI协议,可直接用现有OpenAI SDK接入。
- 本地部署:从Hugging Face或ModelScope下载模型权重和GGUF量化版本,在支持的硬件(Mac Studio M4 Max、DGX Spark、AMD AI Max+395等)上本地运行。
- Agent框架接入:在KiloCode、OpenClaw、Hermes Agent等已验证的工具中配置Step 3.7 Flash的API端点,即可作为底层模型驱动Coding与自动化工作流。
- 套餐服务:阶跃提供Coding Plan包月服务,49元套餐可获每5小时100次、每周400次的调用额度。
框架技术原理
Step 3.7 Flash的核心架构是稀疏混合专家(Sparse MoE, Mixture of Experts)。与传统Dense架构每次推理激活全部参数不同,MoE架构引入路由器(Router)机制,每次仅选择Top-K个”专家”参与计算。
具体参数设计:
| 参数类型 | 数值 |
|---|---|
| 总参数 | 196B + 1.8B(ViT视觉编码器) |
| 激活参数 | 11B(仅占总参数的5.6%) |
| 每次激活专家数 | 估计Top-2或Top-3 |
这意味着每次推理只需计算约11B参数,而非全部196B,从而实现速度与成本的数量级优化。多模态能力并非”挂载式”(先用独立视觉模型转文本再输入LLM),而是原生融合——ViT视觉特征与大语言模型的11B激活参数在Transformer内部联合推理,信息损失极小。
模型还采用视觉感知-搜索-推理融合策略:面对复杂视觉问题时,模型不是把所有视觉常识硬塞进权重,而是在推理阶段主动调用Visual Python Tool(裁剪、放大、重读)和Visual Search(联网检索+交叉验证)来扩展能力边界。
创新点
- Flash模型定位跃迁:从”旗舰模型的轻量替代品”升级为”生产级Agent的核心任务执行基座”,设计目标从单点能力峰值转向长任务链路的完成效率。
- 原生多模态+Flash速度的罕见组合:同级别模型(如DeepSeek V4 Flash)基本无多模态能力,Step 3.7 Flash在保持400 Tokens/s速度的同时实现了原生视觉理解,填补了市场空白。
- 推理阶段的工具扩展范式:不把所有能力压入权重,而是通过推理时调用工具和搜索来动态扩展模型边界,这是一种更具扩展性的架构思路。
- 全链路Agent优化:不是单纯做一个”快的模型”,而是围绕Agent任务链路进行一体化设计——从多轮对话、工具调用、搜索验证到任务闭环,每个环节都做了针对性优化。
- 开源策略激进:与谷歌Gemini 3.5 Flash、Anthropic Claude Haiku等走闭源API路线的同类产品不同,阶跃选择将权重一并开源,降低了生态门槛。
评估标准
Step 3.7 Flash在多个Agent导向的基准测试中表现如下(数据均由阶跃星辰官方披露,尚未经独立第三方横向验证):
| 基准测试 | 得分 | 考察内容 |
|---|---|---|
| ClawEval-1.1 | 67.1% | 真实环境下多步骤自主任务执行(任务理解、规划、工具调用、错误恢复、任务闭环) |
| Toolathlon | 49.5% | 多工具协同能力 |
| GDPval | 45.8% | 横跨44种职业的通用任务执行 |
| τ²-Bench Telecom | >98%(全难度) | 通信领域任务通过率 |
| SWE-Bench Pro | 56.3%(全球第二) | 软件工程代码能力 |
| SimpleVQA Search | 79.2% | 视觉问答搜索 |
| V* Python | 95.3% | 视觉编程任务 |
评价标准已从”单次回答聪不聪明”转向”长任务链路能不能完成”,这正是Agent时代的核心评估逻辑。
应用领域
- 企业流程自动化:通过稳定调用API、Office工具和外部系统,嵌入企业工作流执行数据录入、报表生成、跨系统操作。
- 多模态知识工作:自动理解UI界面、图表、文档,生成结构化分析或操作指引,适用于产品分析、设计评审、软件教程生成。
- 视觉搜索与验证:在信息不确定时主动发起图像搜索和交叉验证,适用于电商比价、内容审核、事实核查。
- Coding Agent:在SWE-Bench Pro和Terminal-Bench中表现突出,可稳定执行代码生成、调试、终端操作等开发任务。
- 商业服务交互:配合人形机器人等硬件,在商场、景区、展会等场景提供多模态交互服务(阶跃生态已有LimX Luna等落地产品)。
项目地址
| 资源 | 链接 |
|---|---|
| Model Page | https://static.stepfun.com/blog/step-3.7-flash/ |
| GitHub | https://github.com/stepfun-ai/Step-3.7-Flash |
| Hugging Face | https://huggingface.co/stepfun-ai/Step-3.7-Flash |
| ModelScope(国内) | https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash |
| GGUF量化版本 | https://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF |
| 国内API接入 | https://platform.stepfun.com |
| 海外API接入 | https://platform.stepfun.ai |
| Studio在线体验 | https://studio.stepfun.com/ |
| 开源协议 | Apache 2.0 |