InfinityStar : 字节跳动推出的高效视频生成模型

AI工具5小时前发布 FuturX-Editor
7 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

InfinityStar是字节跳动商业化技术团队在NeurIPS’25上发布的创新视频生成模型,通过时空金字塔建模架构实现高效视频生成。该模型在单GPU上一分钟内即可生成5秒720p视频,性能超越主流扩散模型,为视频生成领域带来突破性进展。其核心思想是将视频分解为静态外观与动态运动信息,通过统一架构支持图像生成、文本生成视频、视频续写等多种任务。InfinityStar : 字节跳动推出的高效视频生成模型

功能特点

  • 高效生成:单GPU生成5秒720p视频仅需58秒,速度比主流扩散模型快32倍。
  • 统一架构:支持文生图、文生视频、图生视频、交互式长视频生成等多种任务。
  • 高质量输出:在VBench基准测试中得分83.74,超越参数量更大的扩散模型HunyuanVideo。
  • 长视频生成:理论上可无限扩展生成任意长度视频,保持时序一致性。

优缺点

  • 优点
    • 速度极快:自回归架构避免扩散模型的多步去噪,生成效率显著提升。
    • 质量领先:在视觉质量、文本遵循度、运动平滑度上全面超越扩散模型。
    • 通用性强:零样本泛化能力支持多任务处理,无需微调即可适应不同场景。
  • 缺点
    • 硬件要求较高:高效生成依赖高性能GPU,普通设备可能无法达到最佳效果。
    • 长视频挑战:极长视频生成仍需优化,以进一步提升稳定性和细节质量。

如何使用

  • Discord社区体验:通过Discord社区入口登录账号,在左侧导航栏选择文生视频、图生视频等功能选项。
  • 操作流程
    1. 在“infinity-8b-generate”中输入提示词生成图像。
    2. 挑选满意图像后,将其“喂”到“i2v-generate-horizontal-1”中,配以提示词生成视频。
    3. 支持交互式长视频生成:先提供5秒视频,再输入新提示词,模型根据参考视频和提示词继续生成。

框架技术原理

  • 时空金字塔建模
    • 首帧处理:视频第一帧作为独立图像,采用图像金字塔由粗到精建模,捕捉静态外观信息。
    • 视频片段处理:后续片段切分为连续视频块,引入时间维度捕捉动态变化。
    • 自回归Transformer:建模金字塔内部和片段间依赖关系,统一为“预测下一个尺度/片段”问题。
  • 关键技术
    • 高效视觉分词器:基于多尺度残差量化,通过知识继承和随机量化器深度优化训练。
    • 优化的时空自回归Transformer:引入语义尺度重复、时空稀疏注意力、时空RoPE位置编码,提升长上下文处理能力。

创新点

  • 时空解耦设计:首次将空间尺度与时间维度分离,降低模型学习难度,提升生成质量。
  • 知识继承策略:利用预训练连续视频VAE初始化分词器,显著加快收敛速度,提高重建质量。
  • 稀疏注意力机制:通过时空稀疏注意力降低计算复杂度,实现高效长视频生成。
  • 统一多任务框架:同一模型无需修改即可支持多种视觉生成任务,展现强大泛化能力。

评估标准

  • 质量评估:在VBench基准测试中综合评估视觉质量、文本遵循度、运动平滑度。
  • 速度评估:测量单GPU生成5秒720p视频所需时间,对比主流扩散模型加速倍数。
  • 通用性评估:通过零样本测试验证模型在文生图、文生视频、图生视频等任务上的表现。

应用领域

  • 内容创作:快速生成高质量视频素材,降低创作门槛,提升效率。
  • 影视制作:辅助长视频生成与续写,为导演提供创意灵感与技术支持。
  • 广告营销:根据文本描述生成定制化视频广告,满足多样化需求。
  • 教育娱乐:生成教育动画或互动视频,增强学习体验与娱乐性。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...