Step-Video-TI2V——阶跃星辰开源的图生视频模型

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Step-Video-TI2V是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型。该模型基于300亿参数进行训练,支持从图像生成视频,并具备运动幅度可控和镜头运动可控两大核心特点。Step-Video-TI2V不仅能够生成高质量的视频内容,还能为创作者提供更为灵活的视频创作工具。

Step-Video-TI2V——阶跃星辰开源的图生视频模型 Step-Video-TI2V——阶跃星辰开源的图生视频模型

功能特点

  1. 图生视频生成

    • Step-Video-TI2V能够将图像转化为视频,支持生成最多102帧、5秒、540P分辨率的视频。
  2. 运动幅度可控

    • 用户可以通过设置运动分数(motion score)来控制视频的动态性。例如,运动分数较低时,视频更稳定但动态性较差;运动分数较高时,视频的动态性更强。
    • 这种功能使得创作者能够在动态效果和稳定性之间找到最佳平衡,满足不同创作需求。
  3. 镜头运动可控

    • Step-Video-TI2V支持多种运镜方式,包括固定镜头、上下左右移动、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
    • 创作者可以精准控制视频中的镜头运动,生成类似电影级别的复杂运镜效果。
  4. 动漫效果优化

    • 该模型在动漫风格视频生成方面表现出色,能够生成具有虚化背景、动态动作等特效的视频。
  5. 多尺寸支持

    • Step-Video-TI2V支持多种尺寸的视频生成,包括横屏、竖屏和方屏,满足不同平台和创作需求。
  6. 初步特效生成能力

    • 模型天生具备一定的特效生成能力,未来还将通过LoRA等技术持续解锁更多特效潜力。

优缺点

优点

  1. 高参数规模:拥有300亿参数,为视频生成任务提供了更高的上限和更好的性能。
  2. 灵活可控:运动幅度和镜头运动均可控,为创作者提供了更多的创作自由和灵活性。
  3. 多场景适用:适用于动画制作、短视频创作、特效制作等多种场景,具有广泛的应用前景。
  4. 开源共享:模型已经开源,方便全球开发者共同研究和改进。

缺点

  1. 技术门槛较高:作为高级的图生视频模型,Step-Video-TI2V的使用和调优需要一定的技术背景和专业知识。
  2. 计算资源需求大:生成高质量视频需要较大的计算资源,可能对硬件环境有一定要求。

如何使用

  1. 下载模型

    • 用户可以从GitHub等开源平台下载Step-Video-TI2V的源代码和预训练模型。
  2. 安装依赖

    • 确保您的开发环境中安装了必要的依赖项,如Python、PyTorch等。
  3. 加载模型

    • 使用代码加载预训练模型,并准备好输入图像或图像序列。
  4. 生成视频

    • 设置运动分数和镜头运动参数,调用模型生成视频。
  5. 后处理

    • 对生成的视频进行后处理,如剪辑、特效添加等,以满足最终创作需求。

下载阶跃AI App,点击【视频创作】即可。

Step-Video-TI2V——阶跃星辰开源的图生视频模型

框架结构

Step-Video-TI2V采用了先进的深度学习架构,主要包括以下几个部分:

  1. 深度压缩变分自编码器(Video-VAE)

    • 实现了16×16的空间压缩和8×的时间压缩,显著提高了训练和推理效率。
    • 采用了双路径架构,有效分离高低频信息,进一步优化视频生成效果。
  2. 扩散Transformer(DiT)架构

    • 包含3D全注意力机制,通过Flow Matching训练方法将输入噪声逐步去噪为潜在帧。
    • 将文本嵌入和时间步作为条件因子,生成与文本描述相符的视频内容。
  3. 双语文本编码器

    • 能够处理中英文提示输入,使模型可以直接理解中文或英文指令。
  4. 直接偏好优化(DPO)

    • 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果。
Step-Video-TI2V——阶跃星辰开源的图生视频模型

创新点

  1. 原生多模态融合

    • Step-Video-TI2V将图像和视频作为原生多模态数据进行融合处理,提升了视频生成的质量和效果。
  2. 运动幅度可控技术

    • 引入了运动分数概念,使用户能够精准控制视频的动态性,平衡动态效果和稳定性。
  3. 高效压缩和推理

    • 通过深度压缩变分自编码器实现了高效的视频压缩和推理,降低了计算复杂度。
  4. 开源共享生态

    • 模型已经开源,鼓励全球开发者共同研究和改进,推动图生视频技术的发展。

评估标准

  1. 视频生成质量

    • 评估生成视频的清晰度、流畅度和与文本描述的相符程度。
  2. 动态性调节能力

    • 测试模型在不同运动分数下的视频生成效果,评估其动态性调节能力。
  3. 镜头运动控制能力

    • 检查模型是否能够精准控制视频中的镜头运动,生成复杂的运镜效果。
  4. 计算效率和资源消耗

    • 评估模型在训练和推理过程中的计算效率和资源消耗情况。
Step-Video-TI2V——阶跃星辰开源的图生视频模型 Step-Video-TI2V——阶跃星辰开源的图生视频模型

应用领域

  1. 动画制作

    • Step-Video-TI2V能够为动画制作提供高效、灵活的工具,帮助创作者生成高质量的动画视频。
  2. 短视频创作

    • 适用于短视频平台的内容创作,为创作者提供更多创意和表现手段。
  3. 特效制作

    • 可以用于电影、电视剧等影视作品的特效制作,生成逼真的特效视频。
  4. 教育培训

    • 在教育培训领域,Step-Video-TI2V可以用于制作教学视频、模拟实验等,提升教学效果。

项目地址

Torch 昇腾适配链接:https://modelers.cn/models/StepFun/Step-Video-TI2V-NPU
MindIE 适配链接:https://modelers.cn/models/MindIE/StepVideo-TI2V

体验网址:https://yuewen.cn/

https://yuewen.cn/videos

GitHub:https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI:https://github.com/stepfun-ai/ComfyUI-StepVideo

技术报告:https://arxiv.org/abs/2503.11251

© 版权声明

相关文章

暂无评论

暂无评论...