Helios : 北大联合字节等开源的实时长视频生成模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Helios是由北京大学联合字节跳动、Canva等机构开源的全球首个140亿参数(14B)实时长视频生成模型。该模型突破了传统视频生成中“生成速度、视频时长、画面质量”难以兼得的“不可能三角”,在单张NVIDIA H100 GPU上以19.5 FPS的速度实时生成长达1分钟的4K高清视频,且无需依赖复杂的抗漂移策略或加速技术。其核心目标是为影视制作、游戏引擎、虚拟制片等领域提供高效、低延迟的长视频生成工具。
功能特点
- 实时生成:单卡19.5 FPS的生成速度,超越多数1.3B参数模型,且支持分钟级视频输出。
- 长视频稳定性:支持生成1440帧(约1分钟)的连续视频,全程无位置偏移、色彩失真或场景崩坏。
- 多任务支持:原生支持文本生成视频(T2V)、图像生成视频(I2V)、视频续写(V2V)及交互式生成。
- 硬件友好:单卡训练/推理,无需多卡并行或模型分片,80GB显存可容纳4个14B模型实例。
- 生态兼容:支持Diffusers、vLLM-Omni、SGLang-Diffusion等主流推理框架,并兼容昇腾NPU。
优缺点
优点:
- 性能卓越:14B参数下实现实时生成,画质媲美SOTA模型(如Wan 14B)。
- 抗漂移能力强:通过首帧锚定、帧感知破坏等技术,彻底解决长视频生成中的漂移问题。
- 资源效率高:分层历史压缩和金字塔采样策略显著降低显存占用,计算成本与1.3B模型相当。
缺点:
- 硬件门槛较高:需NVIDIA H100或昇腾NPU等高端GPU支持。
- 训练数据依赖:长视频生成质量受训练数据时长和多样性的限制。
如何使用
- 环境准备:准备一台配备NVIDIA H100 GPU的电脑,安装PyTorch及Diffusers等依赖库。
- 获取模型:从Hugging Face或ModelScope下载Helios预训练模型(如Helios-Distilled)。
- 输入指令:通过命令行或图形界面输入文本提示(如“生成一段海边日落的视频”)或上传参考图像/视频。
- 生成视频:模型自动提取输入特征,生成指定时长的视频,并支持实时预览和调整。
框架技术原理
Helios基于自回归扩散模型(Diffusion Transformer)架构,核心原理包括:
- 统一历史注入:将长视频生成建模为续写任务,通过拼接历史帧(干净上下文)和当前噪声帧(待生成内容)作为模型输入,实现T2V/I2V/V2V的统一处理。
- 抗漂移训练策略:
- 相对位置编码:替代绝对时间索引,消除周期性重复运动。
- 首帧锚定:保留第一帧作为全局视觉参照,稳定色彩分布。
- 帧感知破坏:在训练时对历史帧施加噪声、曝光调整等扰动,提升模型对不完美输入的鲁棒性。
- 深度压缩流:
- 分层历史压缩:将历史帧分为短期、中期、长期三部分,分别用不同大小的卷积核压缩,减少显存占用。
- 金字塔采样:从低分辨率到高分辨率逐步细化生成,降低计算量。
- 对抗性分层蒸馏:将50步采样压缩至3步,同时保持高质量输出,显著提升推理速度。
创新点
- 实时长视频生成:首次在14B参数规模下实现单卡实时生成,打破“大模型=慢速度”的固有认知。
- 无漂移长视频:通过首帧锚定和帧感知破坏等技术,无需复杂启发式策略即可生成分钟级稳定视频。
- 高效压缩与蒸馏:分层历史压缩和对抗性分层蒸馏将计算成本降至1.3B模型水平,同时支持单卡训练。
- 统一多任务框架:通过历史上下文的不同拼接方式,实现T2V/I2V/V2V的统一建模,降低任务切换成本。
评估标准
Helios通过以下标准评估性能:
- HeliosBench基准测试:包含240个多样化提示词,覆盖极短(81帧)、短(240帧)、中(720帧)、长(1440帧)四类时长,从美学性、动态性、运动平滑度、语义对齐、自然度及漂移程度六个维度评分。
- 用户研究:通过200名参与者的 pairwise 对比,评估生成视频的主观质量。
- 消融实验:验证首帧锚定、帧感知破坏等关键组件的必要性,如移除首帧锚定会导致颜色迅速跑偏。
应用领域
- 影视制作:快速生成分镜预览或特效片段,降低拍摄成本。
- 游戏引擎:实时渲染动态场景,提升玩家沉浸感。
- 虚拟制片:通过交互式生成实现场景的快速迭代和修改。
- 直播与短视频:支持实时内容生成与编辑,提升创作效率。
项目地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...