Step 3.7 Flash ：阶跃星辰开源的新一代 Flash 模型

457 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

2026年5月29日，基础大模型公司阶跃星辰（StepFun）正式发布并开源了Step 3.7 Flash模型。这是一款专为生产级Agent（智能体）打造的Flash模型，采用稀疏MoE架构，总参数196B+1.8B（ViT视觉编码器），激活参数仅11B，最高生成速度可达400 Tokens/s。模型围绕Agent、Coding、Search与多模态工作流进行了系统性优化，目标是在速度、成本、可靠执行和复杂任务处理能力之间取得更好平衡。作为继2026年2月开源的Step 3.5 Flash之后的迭代产品，Step 3.7 Flash采用Apache 2.0开源协议，权重与代码均可直接下载，支持云端与本地双部署，标志着Flash类模型正从”轻量替代品”向”生产级Agent基础设施”演进。 Step 3.7 Flash ：阶跃星辰开源的新一代 Flash 模型

功能特点

原生多模态理解与执行：直接处理UI界面、图表、文档、图片及各类应用界面，将复杂视觉信息转化为结构化结果、代码生成和可执行任务，支持自主裁剪、放大、重读图像。
联网与视觉搜索增强：强化联网检索与图像搜索能力，在开放信息环境中跨文本与图像主动获取并交叉比对多源证据，信息不确定时自动发起搜索验证。
高可靠工具调用与编排：在长程多轮Agent工作流中稳定调用API、浏览器、终端、Office工具等外部系统，保持任务轨迹一致，显著降低跑偏和执行失败风险。
Agent生态兼容优化：针对Claude Code、KiloCode、RooCode、OpenCode、Hermes Agent、OpenClaw等主流框架及MCP/Skills协议进行兼容适配，降低接入成本。
25.6万Token超长上下文：支持三档推理层级（低/中/高），适配不同性能需求场景。

优缺点

优点：

速度极快，400 Tokens/s的生成速度在同类模型中处于第一梯队，实测短文本场景可达320-350 Tokens/s，比Dense架构模型快3-5倍。
激活参数仅11B，推理成本大幅降低，输入缓存命中时仅0.27元/百万tokens，性价比突出。
原生多模态能力在同级别Flash模型中几乎无对手，多数竞品（如DeepSeek V4 Flash）仍为纯文本模型。
完全开源（Apache 2.0），支持本地部署，提供GGUF多精度量化版本，可在Mac Studio M4 Max等消费级设备运行。

缺点：

总参数196B属于中等规模，在通用推理能力和极致性能上与DeepSeek V4-Pro（1.6万亿参数）等旗舰模型仍有差距。
输出价格8.1元/百万tokens，高于部分竞品（如Qwen3.7-Max约4.05元），多模态场景下的成本优势需权衡。
官方基准数据尚未经独立第三方横向验证，实际生产环境稳定性有待更多用户检验。
长途上下文（128K以上）场景下速度会降至180-220 Tokens/s，衰减明显。

如何使用

无需编写代码即可通过以下方式快速体验：

在线体验：访问阶跃星辰Studio平台（studio.stepfun.com），无需配置即可在网页端直接对话和测试多模态能力。
API调用：注册阶跃开放平台（国内用platform.stepfun.com，海外用platform.stepfun.ai），获取API Key后通过标准接口调用，兼容OpenAI协议，可直接用现有OpenAI SDK接入。
本地部署：从Hugging Face或ModelScope下载模型权重和GGUF量化版本，在支持的硬件（Mac Studio M4 Max、DGX Spark、AMD AI Max+395等）上本地运行。
Agent框架接入：在KiloCode、OpenClaw、Hermes Agent等已验证的工具中配置Step 3.7 Flash的API端点，即可作为底层模型驱动Coding与自动化工作流。
套餐服务：阶跃提供Coding Plan包月服务，49元套餐可获每5小时100次、每周400次的调用额度。

框架技术原理

Step 3.7 Flash的核心架构是稀疏混合专家（Sparse MoE, Mixture of Experts）。与传统Dense架构每次推理激活全部参数不同，MoE架构引入路由器（Router）机制，每次仅选择Top-K个”专家”参与计算。

具体参数设计：

参数类型	数值
总参数	196B + 1.8B（ViT视觉编码器）
激活参数	11B（仅占总参数的5.6%）
每次激活专家数	估计Top-2或Top-3

这意味着每次推理只需计算约11B参数，而非全部196B，从而实现速度与成本的数量级优化。多模态能力并非”挂载式”（先用独立视觉模型转文本再输入LLM），而是原生融合——ViT视觉特征与大语言模型的11B激活参数在Transformer内部联合推理，信息损失极小。

模型还采用视觉感知-搜索-推理融合策略：面对复杂视觉问题时，模型不是把所有视觉常识硬塞进权重，而是在推理阶段主动调用Visual Python Tool（裁剪、放大、重读）和Visual Search（联网检索+交叉验证）来扩展能力边界。

创新点

Flash模型定位跃迁：从”旗舰模型的轻量替代品”升级为”生产级Agent的核心任务执行基座”，设计目标从单点能力峰值转向长任务链路的完成效率。
原生多模态+Flash速度的罕见组合：同级别模型（如DeepSeek V4 Flash）基本无多模态能力，Step 3.7 Flash在保持400 Tokens/s速度的同时实现了原生视觉理解，填补了市场空白。
推理阶段的工具扩展范式：不把所有能力压入权重，而是通过推理时调用工具和搜索来动态扩展模型边界，这是一种更具扩展性的架构思路。
全链路Agent优化：不是单纯做一个”快的模型”，而是围绕Agent任务链路进行一体化设计——从多轮对话、工具调用、搜索验证到任务闭环，每个环节都做了针对性优化。
开源策略激进：与谷歌Gemini 3.5 Flash、Anthropic Claude Haiku等走闭源API路线的同类产品不同，阶跃选择将权重一并开源，降低了生态门槛。

评估标准

Step 3.7 Flash在多个Agent导向的基准测试中表现如下（数据均由阶跃星辰官方披露，尚未经独立第三方横向验证）：

基准测试	得分	考察内容
ClawEval-1.1	67.1%	真实环境下多步骤自主任务执行（任务理解、规划、工具调用、错误恢复、任务闭环）
Toolathlon	49.5%	多工具协同能力
GDPval	45.8%	横跨44种职业的通用任务执行
τ²-Bench Telecom	>98%（全难度）	通信领域任务通过率
SWE-Bench Pro	56.3%（全球第二）	软件工程代码能力
SimpleVQA Search	79.2%	视觉问答搜索
V* Python	95.3%	视觉编程任务

评价标准已从”单次回答聪不聪明”转向”长任务链路能不能完成”，这正是Agent时代的核心评估逻辑。

应用领域

企业流程自动化：通过稳定调用API、Office工具和外部系统，嵌入企业工作流执行数据录入、报表生成、跨系统操作。
多模态知识工作：自动理解UI界面、图表、文档，生成结构化分析或操作指引，适用于产品分析、设计评审、软件教程生成。
视觉搜索与验证：在信息不确定时主动发起图像搜索和交叉验证，适用于电商比价、内容审核、事实核查。
Coding Agent：在SWE-Bench Pro和Terminal-Bench中表现突出，可稳定执行代码生成、调试、终端操作等开发任务。
商业服务交互：配合人形机器人等硬件，在商场、景区、展会等场景提供多模态交互服务（阶跃生态已有LimX Luna等落地产品）。

项目地址

资源	链接
Model Page	https://static.stepfun.com/blog/step-3.7-flash/
GitHub	https://github.com/stepfun-ai/Step-3.7-Flash
Hugging Face	https://huggingface.co/stepfun-ai/Step-3.7-Flash
ModelScope（国内）	https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash
GGUF量化版本	https://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF
国内API接入	https://platform.stepfun.com
海外API接入	https://platform.stepfun.ai
Studio在线体验	https://studio.stepfun.com/
开源协议	Apache 2.0