CoF ： DeepMind推出的视觉模型思维链

AI工具6个月前发布 FuturX-Editor

433 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

CoF（Chain-of-Frames，帧链）是DeepMind提出的视觉模型推理框架，旨在赋予视频生成模型类似语言模型中“链式思维”（CoT）的时空推理能力。其核心思想是通过逐帧生成画面，模拟物理世界的动态变化过程，使模型能够解决需要多步规划和动态理解的复杂视觉任务。这一概念首次在Veo 3模型中实现，标志着视频生成模型向通用视觉基础模型迈出关键一步，被业界称为“视觉推理领域的GPT-3时刻”。

CoF ： DeepMind推出的视觉模型思维链

功能特点

零样本学习与推理
CoF支持模型在未经过特定任务微调的情况下，直接通过提示（如初始图像+文字指令）完成多样化视觉任务，包括迷宫求解、视觉序列补全、数独谜题等。
四层能力框架
- 感知：完成图像分割、超分辨率、去噪等经典视觉任务。
- 建模：理解物理规律（如浮力、折射）和抽象关系（如物体功能）。
- 操控：执行图像编辑、风格迁移、3D模拟等操作。
- 推理：通过帧链实现跨时空视觉推理，如规划迷宫路径。
逐步推理机制
模型将复杂任务分解为逐帧画面，通过生成中间步骤完成最终目标。例如，在迷宫任务中，Veo 3能生成红点逐步移动的视频，成功率达78%（Veo 2仅为14%）。

优缺点

优点

通用性强：单一模型可替代多个专用视觉工具（如Segment Anything、YOLO）。
推理能力突出：在动态任务中表现远超静态图像模型和语言模型。
成本下降潜力大：参考LLM发展轨迹，未来推理成本可能大幅降低。

缺点

特定任务精度不足：在边缘检测等任务上仍落后于专用模型。
计算成本高昂：当前生成视频的成本显著高于专用模型。
复杂任务易出错：如旋转类比推理中仍存在失误。

如何使用

输入提示：提供初始图像（第一帧）和文字指令（如“让红点从起点沿白色路径走到绿点”）。
选择任务类型：指定感知、建模、操控或推理任务。
生成结果：模型通过帧链机制生成逐帧视频，完成复杂视觉任务。

注：实际使用需等待DeepMind正式发布模型及配套工具。

框架技术原理

混合生成架构
- 视觉编码器：将图像切块并编码为特征图。
- 连续适配器：压缩特征图后投影到LLM嵌入维度，生成连续语义表示。
- 离散适配器：通过量化将特征转换为离散索引，支持自回归生成。
帧链推理机制
- 模型逐帧生成画面，每一步基于前序帧和任务目标调整后续内容。
- 结合物理引擎和直觉推理，确保画面动态符合现实规律。
训练流程
- 预训练：使用23亿对图像-文本样本覆盖多模态数据。
- 继续预训练：加入2400万高质量能力导向数据（如多语言OCR）。
- 监督微调：通过混合文本、理解和生成任务优化模型。

创新点

视觉领域的“思维链”
首次将语言模型中的CoT概念引入视频生成，通过帧链实现时空推理。
语义与渲染解耦
将高层语义预测（LLM）与底层像素渲染（扩散解码器）分离，简化训练流程。
渐进式分辨率训练
扩散解码器从低分辨率逐步微调至高分辨率，提升生成质量。
统一自回归目标
对纯文本、理解任务和生成任务使用单一损失函数，无需额外辅助损失。

评估标准

感知任务指标：图像分割、边缘检测等任务的准确率。
建模任务指标：物理现象模拟（如浮力、折射）的合理性。
操控任务指标：图像编辑、风格迁移的保真度。
推理任务指标：迷宫求解、数独谜题的成功率。
人工评估：从结构完整性、指令遵循和审美质量三个维度打分。

应用领域

智能助手：结合文本和图像信息，提供多模态交互。
内容创作：根据文本描述生成高质量视频，支持风格迁移、图像填充等。
教育：通过图像解释复杂科学概念，提供个性化学习建议。
医疗：分析患者影像资料和病历，辅助诊断。
金融：解读图表和数据，支持决策分析。

项目地址

论文链接：Video models are zero-shot learners and reasoners

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

EasyControl Ghibli：基于扩散模型的AI图像生成工具

FuturX-Editor

807 0

ModelEngine —— 华为开源的全流程AI开发工具链

FuturX-Editor

860 1

PhotoMaker V2——腾讯推出的AI图像生成框架

FuturX-Editor

692 0

MirageLSD ： Decart AI推出的实时视频生成模型

FuturX-Editor

914 0

PixVerse V5 : 爱诗科技推出的AI视频生成模型

FuturX-Editor

576 0

SWE-Kit —— 构建自定义软件工程AI代理的开源框架

FuturX-Editor

647 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号