Grok Imagine Video 1.5 : xAI 推出的图生视频模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Grok Imagine Video 1.5 是埃隆·马斯克旗下 AI 公司 xAI 于 2026 年 6 月推出的图生视频模型,6 月 5 日以预览版发布,6 月 17 日正式结束预览上线。该模型基于 xAI 自研的 Aurora 自回归混合专家(MoE)架构构建,训练于 110,000 块 NVIDIA GB200 GPU 的 Colossus 超算集群。核心能力是以单张静态图片为输入,通过自然语言描述镜头运动、节奏与氛围,生成最高 720p 分辨率、带原生同步音频的短视频(6–15 秒)。发布当日即登顶 Arena.ai 图生视频排行榜,Elo 积分约 1330,较前代跃升 52 分,超越 Google Veo、Seedance 2.0 等竞品,成为当前公开基准中图生视频领域最强模型。
功能特点
| 功能 | 说明 |
|---|---|
| 图生视频 | 上传单张静态图片 + 文字提示,生成动态视频,保留原图细节、光影与构图 |
| 文生视频 | 纯文本提示直接生成短视频,适合快速概念探索 |
| 原生同步音频 | 单次生成中同步输出环境音效、背景音乐及唇同步对话,无需后期对齐 |
| 视频延展续写 | 基于自回归机制从末帧继续生成,支持多镜头串联为更长场景 |
| 多比例输出 | 支持 1:1、16:9、9:16 等 7 种宽高比,可选 480p / 720p |
| Fast 模式 | 6 秒 720p 视频仅需约 25 秒生成(前代需 40 秒以上) |
优缺点
优点:
- 原生音频是最大差异化优势——音画在同一生成 pass 中完成,唇同步误差率低至 2.1% 以内,语音清晰度较前代提升 37%
- 物理模拟大幅增强——引入三维空间动力学模型,衣摆晃动与步频匹配度达 92%,抛体轨迹误差控制在 4% 以内,明显减少肢体扭曲和物体漂浮
- 生成速度快——Fast 模式下效率提升约 38%,适合快速迭代
- Arena 榜单第一——综合表现领先 Seedance 2.0、Google Veo 3.1、Kling 3.0 等主流竞品
- 参考图一致性好——跨多段视频的角色外形漂移率明显低于前代
缺点:
- 分辨率上限 720p——竞品如 Seedance 2.0 已支持 1080p,专业场景略显不足
- 单次时长上限 15 秒——较 Seedance 的 20 秒更短,长叙事需多次拼接
- 复杂 Logo 仍存在漂移——文字、品牌标识在动态中可能变形
- 处于预览/早期阶段——能力细节和限制未来仍可能调整
如何使用
- 注册获取 API Key:访问 xAI 开发者平台; 注册账号,导出 API Key
- 准备素材:准备一张起始图片(或纯文字描述),想好要让画面怎么动(如”镜头缓慢右移,瀑布水流加速”)
- 调用 API 生成:通过 xAI 提供的 Web 界面或任何支持 HTTP 请求的工具(如 Postman),向
https://api.x.ai/v1/videos/generations发送请求,填入模型 IDgrok-imagine-video-1.5、图片链接、提示词、分辨率和时长 - 等待异步结果:提交后获得 request_id,轮询状态接口,完成后返回视频 URL,直接下载或嵌入使用
- 延展拼接:如需更长视频,用视频延展接口(video extension)从上一段末帧继续生成,再手动拼接
定价:480p 为 0.08 美元/秒,720p 为 0.14 美元/秒,每张输入图额外 0.01 美元,音频生成包含在内不另收费。
框架技术原理
- 引擎架构:Aurora 自回归 MoE(混合专家)架构,逐帧预测生成视频序列,支持从最后一帧自回归延展
- 训练规模:110,000 块 NVIDIA GB200 GPU 的 Colossus 集群
- 原生音视频联合建模:视频帧与音频波形在单一前向传播中同时生成,通过共享潜空间对齐口型、动作与音效时间戳
- 空间音频引擎:音源随画面主体移动自动调整声场位置(如角色走向左侧,声音相应偏移)
- 物理模拟层:三维空间动力学模型,计算物体质量、摩擦力、空气阻力,模拟重量感与动量
- 场景感知环境音:雨声、森林声等根据画面内容动态合成,而非调用通用素材库
创新点
- 单 pass 原生音视频联合生成——行业首创在一次推理中同时完成视频画面与音效/对话/环境音的生成与对齐,彻底省去 TTS + 音效 API 的后期拼接流程
- 空间音频定位——声音随画面主体移动而实时调整声场,这在视频生成模型中极为罕见
- 物理真实感算法重构——从”看起来在动”升级到”动得符合物理规律”,衣摆、下落轨迹等细节接近真实世界
- 自回归视频延展——保证多段视频之间运动向量和光照状态的连续性,解决了前代续接时的跳变问题
评估标准
| 评估维度 | 成绩 |
|---|---|
| Arena.ai 图生视频 Elo 积分 | ~1330(排名第 1,较 1.0 版本 +52 分) |
| 唇同步口型误差率 | < 2.1% |
| 语音清晰度提升 | 较 1.0 版本 +37% |
| 衣摆晃动与步频匹配度 | 92% |
| 抛体轨迹误差 | < 4% |
| 6 秒 720p 生成时间(Fast 模式) | ~25 秒 |
应用领域
- 电商:商品静态图 → 动态展示视频,降低拍摄成本
- 社交媒体 / 短视频:海报、照片一键转视频片头,快速产出内容
- 品牌营销:同一张主视觉快速生成多渠道、多比例素材
- 广告分镜:多镜头序列拼接,加速从创意到成片的周期
- 教育 / 知识类创作:静态插图 → 动态演示
- 概念验证 / 故事板:快速验证视觉方案,替代部分实拍测试
项目地址
- 官方发布页:https://x.ai/news/grok-imagine-video-1-5
- API 文档:https://console.x.ai/
- 模型标识符:
grok-imagine-video-1.5(正式版)/grok-imagine-video-1.5-preview(预览版)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...