InfinityStar ：字节跳动推出的高效视频生成模型

AI工具5个月前发布 FuturX-Editor

213 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

InfinityStar是字节跳动商业化技术团队在NeurIPS’25上发布的创新视频生成模型，通过时空金字塔建模架构实现高效视频生成。该模型在单GPU上一分钟内即可生成5秒720p视频，性能超越主流扩散模型，为视频生成领域带来突破性进展。其核心思想是将视频分解为静态外观与动态运动信息，通过统一架构支持图像生成、文本生成视频、视频续写等多种任务。 InfinityStar ：字节跳动推出的高效视频生成模型

功能特点

高效生成：单GPU生成5秒720p视频仅需58秒，速度比主流扩散模型快32倍。
统一架构：支持文生图、文生视频、图生视频、交互式长视频生成等多种任务。
高质量输出：在VBench基准测试中得分83.74，超越参数量更大的扩散模型HunyuanVideo。
长视频生成：理论上可无限扩展生成任意长度视频，保持时序一致性。

优缺点

优点：
- 速度极快：自回归架构避免扩散模型的多步去噪，生成效率显著提升。
- 质量领先：在视觉质量、文本遵循度、运动平滑度上全面超越扩散模型。
- 通用性强：零样本泛化能力支持多任务处理，无需微调即可适应不同场景。
缺点：
- 硬件要求较高：高效生成依赖高性能GPU，普通设备可能无法达到最佳效果。
- 长视频挑战：极长视频生成仍需优化，以进一步提升稳定性和细节质量。

如何使用

Discord社区体验：通过Discord社区入口登录账号，在左侧导航栏选择文生视频、图生视频等功能选项。
操作流程：
1. 在“infinity-8b-generate”中输入提示词生成图像。
2. 挑选满意图像后，将其“喂”到“i2v-generate-horizontal-1”中，配以提示词生成视频。
3. 支持交互式长视频生成：先提供5秒视频，再输入新提示词，模型根据参考视频和提示词继续生成。

框架技术原理

时空金字塔建模：
- 首帧处理：视频第一帧作为独立图像，采用图像金字塔由粗到精建模，捕捉静态外观信息。
- 视频片段处理：后续片段切分为连续视频块，引入时间维度捕捉动态变化。
- 自回归Transformer：建模金字塔内部和片段间依赖关系，统一为“预测下一个尺度/片段”问题。
关键技术：
- 高效视觉分词器：基于多尺度残差量化，通过知识继承和随机量化器深度优化训练。
- 优化的时空自回归Transformer：引入语义尺度重复、时空稀疏注意力、时空RoPE位置编码，提升长上下文处理能力。

创新点

时空解耦设计：首次将空间尺度与时间维度分离，降低模型学习难度，提升生成质量。
知识继承策略：利用预训练连续视频VAE初始化分词器，显著加快收敛速度，提高重建质量。
稀疏注意力机制：通过时空稀疏注意力降低计算复杂度，实现高效长视频生成。
统一多任务框架：同一模型无需修改即可支持多种视觉生成任务，展现强大泛化能力。

评估标准

质量评估：在VBench基准测试中综合评估视觉质量、文本遵循度、运动平滑度。
速度评估：测量单GPU生成5秒720p视频所需时间，对比主流扩散模型加速倍数。
通用性评估：通过零样本测试验证模型在文生图、文生视频、图生视频等任务上的表现。

应用领域

内容创作：快速生成高质量视频素材，降低创作门槛，提升效率。
影视制作：辅助长视频生成与续写，为导演提供创意灵感与技术支持。
广告营销：根据文本描述生成定制化视频广告，满足多样化需求。
教育娱乐：生成教育动画或互动视频，增强学习体验与娱乐性。

项目地址

GitHub仓库：https://github.com/FoundationVision/InfinityStar
HuggingFace模型库：https://huggingface.co/FoundationVision/InfinityStar
arXiv技术论文：https://arxiv.org/pdf/2511.04675

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Ring-lite ：蚂蚁技术开源的轻量级推理模型

FuturX-Editor

529 0

DreamActor-M1——字节跳动推出的AI图像动画框架

FuturX-Editor

847 0

LlamaV-o1 —— 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

FuturX-Editor

593 0

Nemotron Speech ASR ：英伟达开源的语音识别模型

FuturX-Editor

273 0

通义DeepResearch ：阿里推出的开源深度研究智能体

FuturX-Editor

2,069 0

Llama 3.1—— Meta最新发布的最强开源AI模型

FuturX-Editor

572 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号