StepAudio 2.5 Realtime ：阶跃星辰推出的实时语音大模型

514 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

StepAudio 2.5 Realtime 是阶跃星辰于 2026 年 5 月 8 日正式发布的新一代实时语音大模型，目前已全量上线阶跃星辰开放平台。该模型定位于打造更具”活人感”的 AI 对话体验，核心突破在于对”副语言”信息的深度处理能力——能够精准捕捉语调、语速、停顿乃至一声叹息或轻笑等文字以外的表达方式，从中感知用户情绪状态与潜在意图，并动态调整回应的语气与策略。在人设灵活性方面，模型基于超过 10,000 个高质量原生人设，通过算法裂变生成百万级人设特征矩阵，开发者可通过 API 从性格特质、背景经历、个人好恶到语言习惯与对话边界进行精细化调节。官方 2026 年 4 月评测数据显示，该模型在五个测试维度中均位列第一，主观评测（手机 App 真人对话打分）得分 80.41，远超 GPT-Realtime-1.5 的 68.01 和 Gemini Live 的 67.16；语音问答基准得分 79.80，约为 GPT-Realtime-1.5 的 1.5 倍。 StepAudio 2.5 Realtime ：阶跃星辰推出的实时语音大模型

功能特点

副语言深度感知：实时解析语调、语速、停顿、气息、叹息、轻笑等副语言信号，识别用户疲惫、烦躁、兴奋等情绪状态，动态调整回复语气与策略。
百万级人设特征矩阵：基于 10,000+ 原生人设经算法裂变生成百万级特征，支持从性格、背景、好恶、语言习惯、对话边界等维度 API 级精细化自定义。
RLHF 人设稳定性优化：针对深度角色扮演中常见的”人设崩塌”痛点进行专项强化学习对齐，极端压力测试下仍保持高度角色一致性。
5 个内置预设人设：无需配置即可直接选用，降低体验门槛。
智商与情商双重进阶：深度理解复杂语义、应对抛梗接梗，同时灵活调用多领域知识，既可做情绪陪伴搭子，也能模拟专业 HR 面试等严肃场景。
实时流式交互：支持 WebSocket 低延迟流式语音通信，适合电话客服、实时对话等对响应速度敏感的场景。
全量上线即用：无需排队申请，开发者注册即可通过开放平台 API 接入。

优缺点

优点：

主观体验评分 80.41 断层领先同类产品，副语言感知能力是目前公开评测中最强的实时语音模型之一。
人设自定义颗粒度极细（百万级特征矩阵），远超竞品的标签式人设切换，适合长程角色扮演和个性化服务。
RLHF 对齐专门解决了人设崩塌这一行业痛点，生产环境可用性大幅提升。
已全量上线、无需排队，接入成本低；同时提供 TTS 版本（StepAudio 2.5 TTS）形成语音能力闭环。
语音问答基准 79.80，约为 GPT-Realtime-1.5 的 1.5 倍，知识调用能力突出。

缺点：

当前为闭源 API 服务，无法本地部署或微调，企业私有化需求需依赖阶跃平台。
百万级人设矩阵的 API 调用可能带来较高的 token 消耗和延迟，极端精细人设场景下响应速度有待验证。
官方未公开详细模型参数量和架构细节，学术研究和二次开发受限。
中文场景优势明显，但英文及多语言副语言感知能力尚未有独立评测数据披露。
价格体系尚未完全公开，大规模商业部署的成本可控性需要实测。

如何使用

注册开放平台：访问阶跃星辰开放平台（http://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-realtime），注册账号并完成实名认证。
获取 API Key：在控制台创建应用，获取 API Key 和 Secret Key。
选择人设：可直接使用内置的 5 个预设人设，或通过控制台”人设编辑器”用自然语言描述目标角色（如”性格温和、有十年心理咨询经验、说话喜欢用比喻”）。
接入方式二选一：
- API 接入：在你的应用后端配置 REST/WebSocket 调用，参照文档将音频流通过 WebSocket 传入 wss://api.stepfun.com/v1/realtime/audio，模型实时返回语音流。
- 在线体验：直接访问阶跃体验中心（http://www.stepfun.com/studio/audio）或 Demo 页面（http://stepaudiollm.github.io/step-audio-2.5-tts/），用浏览器即可进行实时语音对话体验。
调试与优化：在控制台查看对话日志和副语言感知热力图，根据用户反馈微调人设描述和全局指令，迭代至满意效果。

框架技术原理

StepAudio 2.5 Realtime 的技术架构可分为三大核心模块：

1. 副语言感知编码器（Paralinguistic Encoder）

在传统语音编码器基础上，新增副语言特征提取分支，专门对音高轮廓（F0）、能量包络、语速变化、停顿模式、气息噪声等非语义声学特征进行建模。
通过对比学习将副语言特征映射到情绪-意图联合空间，实现从”听到声音”到”理解情绪”的跨越。

2. 百万级人设特征矩阵与 RLHF 对齐

以 10,000+ 高质量原生人设为种子，通过特征裂变算法（Feature Fission）在性格维度、背景维度、语言风格维度、行为边界维度上进行组合扩展，生成百万级可寻址的人设特征向量。
推理时根据 API 传入的人设描述检索最近邻特征向量注入模型隐藏层，实现零样本人设切换。
针对角色扮演场景，使用专门构建的”人设一致性”奖励模型进行 RLHF 训练，对人设偏离行为施加强负奖励，确保极端对话下不崩人设。

3. 实时流式推理引擎

基于自研流式架构，端到端延迟控制在实时对话可接受范围内（参考同系列 StepAudio 2.5 TTS 的 200ms 响应延迟水平）。
支持 WebSocket 双向流式通信：客户端上传音频流 → 模型实时解析副语言+语义 → 生成带情绪调控的语音流返回，全链路延迟优化。

创新点

副语言感知从”附加功能”升级为”核心能力”：不同于竞品将情绪识别作为后处理模块，StepAudio 2.5 Realtime 将副语言解析嵌入编码器底层，实现感知与生成的端到端联合优化。
算法裂变生成百万级人设矩阵：传统人设系统最多提供几十个预设角色，本模型通过特征裂变将人设空间从”离散标签”扩展为”连续可调”，是语音交互个性化的范式突破。
RLHF 专项解决人设崩塌：行业首次针对实时语音场景的角色一致性问题构建专用奖励模型和训练管线，填补了长程对话中人设稳定性的技术空白。
主观体验断层领先：80.41 的真人对话打分不仅是数字领先，更代表了”让用户觉得对面是真人”这一语音 AI 终极目标的实质性突破。
TTS + Realtime 双版本协同：同系 StepAudio 2.5 TTS 提供全局/文中语境控制和零样本音色复刻，与 Realtime 版本形成”听-说-演”完整语音能力闭环。

评估标准

评估维度	基准/方式	StepAudio 2.5 Realtime 成绩	对比竞品
主观体验（真人 App 对话打分）	手机 App 真人盲测	80.41（第一）	GPT-Realtime-1.5: 68.01；Gemini Live: 67.16
语音问答基准	标准化语音 QA 测试集	79.80（第一）	约为 GPT-Realtime-1.5 的 1.5 倍
五维度综合评测	官方多维度评测	全部第一	全面领先
副语言感知准确率	情绪/意图识别测试	行业领先（未公开具体数值）	超越同类实时语音模型
人设一致性	极端压力测试	高度稳定（RLHF 专项优化）	解决行业通病”人设崩塌”
流式延迟	端到端响应时间	参考同系 TTS 200ms 以内	满足实时对话要求

应用领域

智能客服与电话助理：副语言感知可实时识别客户情绪（愤怒/焦虑/犹豫），动态调整话术和语气，大幅提升满意度。
情感陪伴与心理咨询：高情商对话 + 精细人设自定义，可扮演心理咨询师、朋友、家人等角色，提供情绪支持。
教育与培训：模拟外教口语陪练、模拟面试官（内置 HR 人设），根据学员语音状态调整教学节奏。
有声内容创作：结合 StepAudio 2.5 TTS 的语境控制能力，实现从脚本到多角色配音的全流程 AI 化。
企业办公助手：会议纪要语音转写 + 情绪分析、多语言实时翻译（副语言感知辅助歧义消解）。
游戏与娱乐：NPC 语音交互、虚拟偶像实时对话、互动式有声剧。
无障碍服务：为视障用户提供带情感反馈的语音助手，为听障用户提供副语言增强的语音转文字服务。

项目地址

开放平台文档：http://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-realtime
在线体验中心：http://www.stepfun.com/studio/audio
Demo 页面：http://stepaudiollm.github.io/step-audio-2.5-tts/
API 端点：WebSocket 接入 wss://api.stepfun.com/v1/realtime/audio
同系 TTS 模型文档：http://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-tts
阶跃星辰官网：https://www.stepfun.com