JoyAI-Echo ：京东开源的长音视频生成框架

647 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

JoyAI-Echo 是京东于 2026 年 6 月 3 日正式发布并开源的长音视频生成框架，完整代码与模型权重已在 GitHub 同步上线。该框架直击行业长期存在的”长视频生成三大难题”——角色易崩、声音乱变、生成缓慢，并首次实现了对话式编辑功能，用户无需重跑整条视频即可局部修改。京东方面表示，JoyAI-Echo 的发布标志着其在长视频生成领域正式进入全球第一梯队。框架内置跨模态音视频记忆库，能在多镜头生成中持续保存并调用角色外观特征和说话人音色信息，实测在长达 5 分钟的视频里，角色身份、视觉形象与声音音色均保持高度一致。 JoyAI-Echo ：京东开源的长音视频生成框架

功能特点

能力	说明
跨模态音视频记忆库	多镜头生成中持续保存角色外观与说话人音色，5 分钟视频内身份不崩
对话式编辑	用自然语言修改局部镜头，无需重跑整条视频，创作从”静态生成”变为”动态协作”
Director Agent 智能导演助理	自动将需求拆分为剧本、角色、场景和镜头，支持规划→生成→评审→修订全流程
7.5 倍推理加速	通过 DMD 分布匹配蒸馏技术，生成速度大幅提升，长视频从”等半天”变”秒出片”
轻量化实时超分	支持 736×1280→1152×1920、736×1280→1472×2560 两档分辨率提升，单步超分即出高清
全量开源	代码与权重全部开放，Apache 2.0 许可，支持二次开发与商用

优缺点

优点：

角色一致性行业领先，5 分钟长视频不”变脸”，这是当前开源模型中最突出的突破
语音内容准确率高达 0.8646，大幅领先同类模型，音频质量用户偏好率 81.7%
对话式编辑彻底改变工作流，改一个镜头不用重来，生产效率质变
DMD 技术带来 7.5 倍加速，推理成本显著降低
提示词遵循度用户偏好率 80.6%，可控性强

缺点：

商业化变现路径尚未明确，当前以技术积累和生态建设为主
对显卡显存要求较高，消费级设备运行长视频仍有门槛
中文场景下部分复杂剧情的角色一致性仍有优化空间
实时超分虽支持两档，但更高分辨率仍需额外算力

如何使用

方式	操作说明
GitHub 下载模型	访问 GitHub 仓库下载权重文件，配合项目提供的启动脚本一键运行
Hugging Face 体验	在 Hugging Face Spaces 上找到 JoyAI-Echo 在线 Demo，输入文本描述即可生成短视频片段
ComfyUI / WebUI 插件	社区已适配主流节点，拖拽即可接入本地 ComfyUI 工作流
京东官方页面	访问京东 JoyAI 官方项目页查看在线演示和使用文档

注：完整代码、权重、评测集均已开源，建议有一定 GPU 资源（≥16GB 显存）的用户本地部署体验最佳效果。

框架技术原理

JoyAI-Echo 的架构围绕四大核心模块构建：

模块	技术原理
跨模态音视频记忆库	内置专用记忆模块，在多镜头生成过程中持续编码并检索角色外观特征向量与说话人音色嵌入，确保跨镜头信息不丢失
记忆驱动后训练	结合 SFT（监督微调）+ 跨模态 RLHF + DMD（Distribution Matching Distillation）三阶段训练，DMD 通过分布匹配将教师模型知识高效蒸馏到学生模型，实现约 7.5 倍推理加速
Director Agent	基于大语言模型的智能代理，接收自然语言需求后自动拆解为剧本→角色→场景→镜头的结构化计划，支持评审与局部修订的闭环工作流
轻量化实时超分	配套专用超分模块，通过单步上采样实现两档分辨率提升，在流式延迟约束下保持高清稳定输出

整体采用”记忆库 + 导演代理 + 加速蒸馏 + 超分”四位一体架构，从一致性、速度、可控性、画质四个维度同时突破。

创新点

跨模态音视频记忆库：业界首次在长视频生成中实现角色外观与音色的跨镜头持续记忆，5 分钟视频不崩，解决了最核心的一致性难题
对话式编辑（Director Agent）：首次让长视频生成支持”边聊边改”，局部修改无需重跑整条视频，工作流从静态变为动态协作
DMD 分布匹配蒸馏：仅此一项技术即实现 7.5 倍加速，大幅降低长视频生成的算力门槛
记忆驱动后训练范式：将记忆机制与后训练流程深度融合，而非简单拼接，训练效率与生成质量同步提升
全量开源 + 完整评测集：基于 100 个故事、3000 个镜头构建行业首个长音视频专项评测集，推动领域标准化

评估标准

评估维度	成绩	对比/说明
语音内容准确率	0.8646	大幅领先行业同类模型
跨镜头一致性	领先	5 分钟视频角色不崩
视频质量	领先	多项指标优于竞品
文本一致性（提示词遵循）	领先	用户偏好率 80.6%
音频质量用户偏好	81.7%	超过八成用户认为音频更优
视觉美学用户偏好	63.6%	超过六成用户认为视觉更佳
IP 一致性用户偏好	59.4%	近六成用户认可角色一致性

评测基于自建的 100 故事 / 3000 镜头数据集，覆盖跨镜头一致性、视频质量、文本一致性、语音准确率四大核心指标。

应用领域

领域	典型场景
虚拟故事与动漫制作	长篇故事连续生成，角色与声音全程一致，大幅降低动漫制作成本
数字人直播	数字人形象与声音稳定输出，支持实时对话式调整
品牌营销视频	快速迭代营销素材，对话式修改替代重新渲染
影视前期预演	分镜快速可视化，导演用自然语言调整镜头
互动教育课件	生成带讲解音轨的教学视频，支持按需修改段落
游戏剧情与过场动画	批量生成游戏剧情动画，角色一致性有保障