Step-Video-TI2V——阶跃星辰开源的图生视频模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Step-Video-TI2V是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型。该模型基于300亿参数进行训练,支持从图像生成视频,并具备运动幅度可控和镜头运动可控两大核心特点。Step-Video-TI2V不仅能够生成高质量的视频内容,还能为创作者提供更为灵活的视频创作工具。


功能特点
-
图生视频生成:
- Step-Video-TI2V能够将图像转化为视频,支持生成最多102帧、5秒、540P分辨率的视频。
-
运动幅度可控:
- 用户可以通过设置运动分数(motion score)来控制视频的动态性。例如,运动分数较低时,视频更稳定但动态性较差;运动分数较高时,视频的动态性更强。
- 这种功能使得创作者能够在动态效果和稳定性之间找到最佳平衡,满足不同创作需求。
-
镜头运动可控:
- Step-Video-TI2V支持多种运镜方式,包括固定镜头、上下左右移动、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
- 创作者可以精准控制视频中的镜头运动,生成类似电影级别的复杂运镜效果。
-
动漫效果优化:
- 该模型在动漫风格视频生成方面表现出色,能够生成具有虚化背景、动态动作等特效的视频。
-
多尺寸支持:
- Step-Video-TI2V支持多种尺寸的视频生成,包括横屏、竖屏和方屏,满足不同平台和创作需求。
-
初步特效生成能力:
- 模型天生具备一定的特效生成能力,未来还将通过LoRA等技术持续解锁更多特效潜力。
优缺点
优点:
- 高参数规模:拥有300亿参数,为视频生成任务提供了更高的上限和更好的性能。
- 灵活可控:运动幅度和镜头运动均可控,为创作者提供了更多的创作自由和灵活性。
- 多场景适用:适用于动画制作、短视频创作、特效制作等多种场景,具有广泛的应用前景。
- 开源共享:模型已经开源,方便全球开发者共同研究和改进。
缺点:
- 技术门槛较高:作为高级的图生视频模型,Step-Video-TI2V的使用和调优需要一定的技术背景和专业知识。
- 计算资源需求大:生成高质量视频需要较大的计算资源,可能对硬件环境有一定要求。
如何使用
-
下载模型:
- 用户可以从GitHub等开源平台下载Step-Video-TI2V的源代码和预训练模型。
-
安装依赖:
- 确保您的开发环境中安装了必要的依赖项,如Python、PyTorch等。
-
加载模型:
- 使用代码加载预训练模型,并准备好输入图像或图像序列。
-
生成视频:
- 设置运动分数和镜头运动参数,调用模型生成视频。
-
后处理:
- 对生成的视频进行后处理,如剪辑、特效添加等,以满足最终创作需求。
下载阶跃AI App,点击【视频创作】即可。

框架结构
Step-Video-TI2V采用了先进的深度学习架构,主要包括以下几个部分:
-
深度压缩变分自编码器(Video-VAE):
- 实现了16×16的空间压缩和8×的时间压缩,显著提高了训练和推理效率。
- 采用了双路径架构,有效分离高低频信息,进一步优化视频生成效果。
-
扩散Transformer(DiT)架构:
- 包含3D全注意力机制,通过Flow Matching训练方法将输入噪声逐步去噪为潜在帧。
- 将文本嵌入和时间步作为条件因子,生成与文本描述相符的视频内容。
-
双语文本编码器:
- 能够处理中英文提示输入,使模型可以直接理解中文或英文指令。
-
直接偏好优化(DPO):
- 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果。

创新点
-
原生多模态融合:
- Step-Video-TI2V将图像和视频作为原生多模态数据进行融合处理,提升了视频生成的质量和效果。
-
运动幅度可控技术:
- 引入了运动分数概念,使用户能够精准控制视频的动态性,平衡动态效果和稳定性。
-
高效压缩和推理:
- 通过深度压缩变分自编码器实现了高效的视频压缩和推理,降低了计算复杂度。
-
开源共享生态:
- 模型已经开源,鼓励全球开发者共同研究和改进,推动图生视频技术的发展。
评估标准
-
视频生成质量:
- 评估生成视频的清晰度、流畅度和与文本描述的相符程度。
-
动态性调节能力:
- 测试模型在不同运动分数下的视频生成效果,评估其动态性调节能力。
-
镜头运动控制能力:
- 检查模型是否能够精准控制视频中的镜头运动,生成复杂的运镜效果。
-
计算效率和资源消耗:
- 评估模型在训练和推理过程中的计算效率和资源消耗情况。


应用领域
-
动画制作:
- Step-Video-TI2V能够为动画制作提供高效、灵活的工具,帮助创作者生成高质量的动画视频。
-
短视频创作:
- 适用于短视频平台的内容创作,为创作者提供更多创意和表现手段。
-
特效制作:
- 可以用于电影、电视剧等影视作品的特效制作,生成逼真的特效视频。
-
教育培训:
- 在教育培训领域,Step-Video-TI2V可以用于制作教学视频、模拟实验等,提升教学效果。
项目地址
体验网址:https://yuewen.cn/
GitHub:https://github.com/stepfun-ai/Step-Video-TI2V
Github-ComfyUI:https://github.com/stepfun-ai/ComfyUI-StepVideo
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...