Grok Imagine Video 1.5 : xAI 推出的图生视频模型

38 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Grok Imagine Video 1.5 是埃隆·马斯克旗下 AI 公司 xAI 于 2026 年 6 月推出的图生视频模型，6 月 5 日以预览版发布，6 月 17 日正式结束预览上线。该模型基于 xAI 自研的 Aurora 自回归混合专家（MoE）架构构建，训练于 110,000 块 NVIDIA GB200 GPU 的 Colossus 超算集群。核心能力是以单张静态图片为输入，通过自然语言描述镜头运动、节奏与氛围，生成最高 720p 分辨率、带原生同步音频的短视频（6–15 秒）。发布当日即登顶 Arena.ai 图生视频排行榜，Elo 积分约 1330，较前代跃升 52 分，超越 Google Veo、Seedance 2.0 等竞品，成为当前公开基准中图生视频领域最强模型。 Grok Imagine Video 1.5 : xAI 推出的图生视频模型

功能特点

功能	说明
图生视频	上传单张静态图片 + 文字提示，生成动态视频，保留原图细节、光影与构图
文生视频	纯文本提示直接生成短视频，适合快速概念探索
原生同步音频	单次生成中同步输出环境音效、背景音乐及唇同步对话，无需后期对齐
视频延展续写	基于自回归机制从末帧继续生成，支持多镜头串联为更长场景
多比例输出	支持 1:1、16:9、9:16 等 7 种宽高比，可选 480p / 720p
Fast 模式	6 秒 720p 视频仅需约 25 秒生成（前代需 40 秒以上）

优缺点

优点：

原生音频是最大差异化优势——音画在同一生成 pass 中完成，唇同步误差率低至 2.1% 以内，语音清晰度较前代提升 37%
物理模拟大幅增强——引入三维空间动力学模型，衣摆晃动与步频匹配度达 92%，抛体轨迹误差控制在 4% 以内，明显减少肢体扭曲和物体漂浮
生成速度快——Fast 模式下效率提升约 38%，适合快速迭代
Arena 榜单第一——综合表现领先 Seedance 2.0、Google Veo 3.1、Kling 3.0 等主流竞品
参考图一致性好——跨多段视频的角色外形漂移率明显低于前代

缺点：

分辨率上限 720p——竞品如 Seedance 2.0 已支持 1080p，专业场景略显不足
单次时长上限 15 秒——较 Seedance 的 20 秒更短，长叙事需多次拼接
复杂 Logo 仍存在漂移——文字、品牌标识在动态中可能变形
处于预览/早期阶段——能力细节和限制未来仍可能调整

如何使用

注册获取 API Key：访问 xAI 开发者平台; 注册账号，导出 API Key
准备素材：准备一张起始图片（或纯文字描述），想好要让画面怎么动（如”镜头缓慢右移，瀑布水流加速”）
调用 API 生成：通过 xAI 提供的 Web 界面或任何支持 HTTP 请求的工具（如 Postman），向 https://api.x.ai/v1/videos/generations 发送请求，填入模型 ID grok-imagine-video-1.5、图片链接、提示词、分辨率和时长
等待异步结果：提交后获得 request_id，轮询状态接口，完成后返回视频 URL，直接下载或嵌入使用
延展拼接：如需更长视频，用视频延展接口（video extension）从上一段末帧继续生成，再手动拼接

定价：480p 为 0.08 美元/秒，720p 为 0.14 美元/秒，每张输入图额外 0.01 美元，音频生成包含在内不另收费。

框架技术原理

引擎架构：Aurora 自回归 MoE（混合专家）架构，逐帧预测生成视频序列，支持从最后一帧自回归延展
训练规模：110,000 块 NVIDIA GB200 GPU 的 Colossus 集群
原生音视频联合建模：视频帧与音频波形在单一前向传播中同时生成，通过共享潜空间对齐口型、动作与音效时间戳
空间音频引擎：音源随画面主体移动自动调整声场位置（如角色走向左侧，声音相应偏移）
物理模拟层：三维空间动力学模型，计算物体质量、摩擦力、空气阻力，模拟重量感与动量
场景感知环境音：雨声、森林声等根据画面内容动态合成，而非调用通用素材库

创新点

单 pass 原生音视频联合生成——行业首创在一次推理中同时完成视频画面与音效/对话/环境音的生成与对齐，彻底省去 TTS + 音效 API 的后期拼接流程
空间音频定位——声音随画面主体移动而实时调整声场，这在视频生成模型中极为罕见
物理真实感算法重构——从”看起来在动”升级到”动得符合物理规律”，衣摆、下落轨迹等细节接近真实世界
自回归视频延展——保证多段视频之间运动向量和光照状态的连续性，解决了前代续接时的跳变问题

评估标准

评估维度	成绩
Arena.ai 图生视频 Elo 积分	~1330（排名第 1，较 1.0 版本 +52 分）
唇同步口型误差率	< 2.1%
语音清晰度提升	较 1.0 版本 +37%
衣摆晃动与步频匹配度	92%
抛体轨迹误差	< 4%
6 秒 720p 生成时间（Fast 模式）	~25 秒