Grok Imagine Video 1.5 : xAI 推出的图生视频模型

AI工具2小时前发布 FuturX-Editor
38 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Grok Imagine Video 1.5 是埃隆·马斯克旗下 AI 公司 xAI 于 2026 年 6 月推出的图生视频模型,6 月 5 日以预览版发布,6 月 17 日正式结束预览上线。该模型基于 xAI 自研的 Aurora 自回归混合专家(MoE)架构构建,训练于 110,000 块 NVIDIA GB200 GPU 的 Colossus 超算集群。核心能力是以单张静态图片为输入,通过自然语言描述镜头运动、节奏与氛围,生成最高 720p 分辨率、带原生同步音频的短视频(6–15 秒)。发布当日即登顶 Arena.ai 图生视频排行榜,Elo 积分约 1330,较前代跃升 52 分,超越 Google Veo、Seedance 2.0 等竞品,成为当前公开基准中图生视频领域最强模型。Grok Imagine Video 1.5 : xAI 推出的图生视频模型

功能特点

功能 说明
图生视频 上传单张静态图片 + 文字提示,生成动态视频,保留原图细节、光影与构图
文生视频 纯文本提示直接生成短视频,适合快速概念探索
原生同步音频 单次生成中同步输出环境音效、背景音乐及唇同步对话,无需后期对齐
视频延展续写 基于自回归机制从末帧继续生成,支持多镜头串联为更长场景
多比例输出 支持 1:1、16:9、9:16 等 7 种宽高比,可选 480p / 720p
Fast 模式 6 秒 720p 视频仅需约 25 秒生成(前代需 40 秒以上)

优缺点

优点

  • 原生音频是最大差异化优势——音画在同一生成 pass 中完成,唇同步误差率低至 2.1% 以内,语音清晰度较前代提升 37%
  • 物理模拟大幅增强——引入三维空间动力学模型,衣摆晃动与步频匹配度达 92%,抛体轨迹误差控制在 4% 以内,明显减少肢体扭曲和物体漂浮
  • 生成速度快——Fast 模式下效率提升约 38%,适合快速迭代
  • Arena 榜单第一——综合表现领先 Seedance 2.0、Google Veo 3.1、Kling 3.0 等主流竞品
  • 参考图一致性好——跨多段视频的角色外形漂移率明显低于前代

缺点

  • 分辨率上限 720p——竞品如 Seedance 2.0 已支持 1080p,专业场景略显不足
  • 单次时长上限 15 秒——较 Seedance 的 20 秒更短,长叙事需多次拼接
  • 复杂 Logo 仍存在漂移——文字、品牌标识在动态中可能变形
  • 处于预览/早期阶段——能力细节和限制未来仍可能调整

如何使用

  1. 注册获取 API Key:访问 xAI 开发者平台; 注册账号,导出 API Key
  2. 准备素材:准备一张起始图片(或纯文字描述),想好要让画面怎么动(如”镜头缓慢右移,瀑布水流加速”)
  3. 调用 API 生成:通过 xAI 提供的 Web 界面或任何支持 HTTP 请求的工具(如 Postman),向 https://api.x.ai/v1/videos/generations 发送请求,填入模型 ID grok-imagine-video-1.5、图片链接、提示词、分辨率和时长
  4. 等待异步结果:提交后获得 request_id,轮询状态接口,完成后返回视频 URL,直接下载或嵌入使用
  5. 延展拼接:如需更长视频,用视频延展接口(video extension)从上一段末帧继续生成,再手动拼接

定价:480p 为 0.08 美元/秒,720p 为 0.14 美元/秒,每张输入图额外 0.01 美元,音频生成包含在内不另收费。

框架技术原理

  • 引擎架构:Aurora 自回归 MoE(混合专家)架构,逐帧预测生成视频序列,支持从最后一帧自回归延展
  • 训练规模:110,000 块 NVIDIA GB200 GPU 的 Colossus 集群
  • 原生音视频联合建模:视频帧与音频波形在单一前向传播中同时生成,通过共享潜空间对齐口型、动作与音效时间戳
  • 空间音频引擎:音源随画面主体移动自动调整声场位置(如角色走向左侧,声音相应偏移)
  • 物理模拟层:三维空间动力学模型,计算物体质量、摩擦力、空气阻力,模拟重量感与动量
  • 场景感知环境音:雨声、森林声等根据画面内容动态合成,而非调用通用素材库

创新点

  1. 单 pass 原生音视频联合生成——行业首创在一次推理中同时完成视频画面与音效/对话/环境音的生成与对齐,彻底省去 TTS + 音效 API 的后期拼接流程
  2. 空间音频定位——声音随画面主体移动而实时调整声场,这在视频生成模型中极为罕见
  3. 物理真实感算法重构——从”看起来在动”升级到”动得符合物理规律”,衣摆、下落轨迹等细节接近真实世界
  4. 自回归视频延展——保证多段视频之间运动向量和光照状态的连续性,解决了前代续接时的跳变问题

评估标准

评估维度 成绩
Arena.ai 图生视频 Elo 积分 ~1330(排名第 1,较 1.0 版本 +52 分)
唇同步口型误差率 < 2.1%
语音清晰度提升 较 1.0 版本 +37%
衣摆晃动与步频匹配度 92%
抛体轨迹误差 < 4%
6 秒 720p 生成时间(Fast 模式) ~25 秒

应用领域

  • 电商:商品静态图 → 动态展示视频,降低拍摄成本
  • 社交媒体 / 短视频:海报、照片一键转视频片头,快速产出内容
  • 品牌营销:同一张主视觉快速生成多渠道、多比例素材
  • 广告分镜:多镜头序列拼接,加速从创意到成片的周期
  • 教育 / 知识类创作:静态插图 → 动态演示
  • 概念验证 / 故事板:快速验证视觉方案,替代部分实拍测试

项目地址

  • 官方发布页:https://x.ai/news/grok-imagine-video-1-5
  • API 文档:https://console.x.ai/
  • 模型标识符:grok-imagine-video-1.5(正式版)/ grok-imagine-video-1.5-preview(预览版)
© 版权声明

相关文章

暂无评论

暂无评论...