CogVideoX v1.5 —— 智谱最新开源的AI视频生成模型

AI工具2年前 (2024)发布 FuturX-Editor

748 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

CogVideoX v1.5主要介绍

CogVideoX v1.5是智谱技术团队最新发布的开源AI视频生成模型。它标志着文生视频技术进入了一个新的阶段，通过不断探索与创新，为用户提供了一种全新的视听创作模式。相比于原有模型，CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力，I2V模型支持任意尺寸比例，大幅提升图生视频质量及复杂语义理解。此次开源包括两个模型：CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V。CogVideoX v1.5 也将同步上线到清影（https://chatglm.cn/video），并与新推出的CogSound音效模型结合。

CogVideoX v1.5功能特点

生成能力：支持生成5秒和10秒长度的视频，分辨率达到768P，并且可以处理16帧的内容，为用户带来更丰富的视频体验。
灵活性：兼容I2V（图像到视频）模型，支持任意尺寸比例，大幅提升素材生成的灵活性与适应性。
质量提升：视频生成质量在多个方面都有显著提升，包括美学表现、运动合理性以及复杂提示词的语义理解能力。
音效匹配：结合新推出的CogSound音效模型，使得生成的每段视频均可以配合相应的音效，实现“画面与声效的完美结合”。
多通道输出：同一指令或图片可以一次性生成四个视频，大大提高了创作效率。

CogVideoX v1.5优缺点

优点：

强大的视频生成能力，支持多种长度、分辨率和帧率。
灵活性高，支持任意尺寸比例，满足多样化的创作需求。
音效匹配功能提升了视频的整体观感体验。
多通道输出功能提高了创作效率。

如何使用CogVideoX v1.5

用户可以通过智谱的开源页面获取CogVideoX v1.5的代码和模型，进行自主学习与改进。同时，新清影平台将与CogVideoX v1.5同步上线，用户可以通过该平台直接使用CogVideoX v1.5进行视频生成。

CogVideoX v1.5训练方法

CogVideoX v1.5的训练涉及大规模的训练数据和多模态学习策略。它采用了生成对抗网络（GAN）和变分自编码器（VAE）等深度学习技术，通过自动化筛选框架过滤缺乏动态连通性的视频数据，并采用端到端的视频理解模型CogVLM2-caption生成精准的视频内容描述。此外，它还通过高效的三维变分自编码器（3D VAE）解决内容连贯性问题，并自主研发了融合文本、时间和空间三维度的Transformer架构。