DeepEyesV2 : 小红书开源的多模态智能体模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
DeepEyesV2 是小红书团队推出的开源多模态智能体模型,专注于通过动态调用外部工具(如代码执行、网页搜索、图像操作)解决复杂现实问题。该模型延续了前代 DeepEyes 的视觉推理优势,突破性实现了“感知-搜索-推理”全流程协同,支持多工具组合调用(如先图像搜索、再文本搜索、最后代码执行),显著提升复杂任务处理能力,推动多模态模型从“信息解读”向“主动解决问题”演进。
功能特点
- 多工具协同:支持代码执行(Python)、网页搜索(文本/图像)、图像操作(裁剪/缩放)三大工具,可动态组合调用(如通过代码访问 API 获取实时数据)。
- 动态推理决策:根据任务需求生成推理计划,自主判断是否调用工具,并将工具结果融入上下文进行多轮迭代推理。
- 任务自适应:感知类任务优先调用图像工具,推理类任务优先调用代码工具,提升效率与准确性。
- 幻觉缓解:通过工具调用获取外部信息,减少模型生成错误答案的概率(如医疗影像分析中结合搜索结果辅助诊断)。
优缺点
- 优点:
- 工具调用灵活:支持多工具组合,解决单一模型无法处理的复杂问题(如结合图像识别与代码计算股票跌幅)。
- 训练策略高效:采用“冷启动+强化学习”两阶段训练,冷启动阶段通过监督微调建立工具使用基础认知,强化学习阶段优化工具调用效率与泛化能力。
- 评估体系完善:提出 RealX-Bench 基准测试,覆盖真实场景中感知、搜索、推理的协同任务,填补现有评测集的空白。
- 缺点:
- 工具依赖性强:性能受限于预设工具集的种类与质量,拓展新工具需重新训练。
- 奖励设计简单:强化学习阶段仅采用“准确率+格式规范”双奖励,可能限制复杂场景下的策略优化。
如何使用
- 环境搭建:克隆 GitHub 仓库(GitHub – Visual-Agent/DeepEyes),安装依赖库(如 Python 3.10+、PyTorch 2.0+)。
- 数据准备:下载官方提供的感知类、推理类、长思维链(CoT)数据集,或根据需求构建自定义数据集。
- 训练模型:
- 冷启动阶段:通过监督微调(SFT)让模型学习工具使用基础逻辑,使用高精度数据集(如包含图像裁剪、代码计算步骤的样本)。
- 强化学习阶段:在冷启动基础上,通过稀疏奖励(准确率、格式正确性)优化模型工具调用策略,提升复杂场景适应性。
- 推理调用:输入图文指令后,模型自动生成推理计划并调用工具(如调用代码执行环境计算数学问题,或通过网页搜索获取实时信息)。
框架技术原理
- 冷启动阶段(监督微调):
- 数据设计:覆盖感知型(需图像操作)、推理型(需代码计算)、长思维链(纯文本推理)三类任务,确保模型掌握基础工具调用模式。
- 过滤机制:通过难度过滤(保留基础模型无法解决的问题)与工具收益过滤(确保工具调用显著提升答案准确率)提升数据质量。
- 强化学习阶段:
- 策略优化:以“准确率+格式规范”为奖励目标,减少不必要工具调用,提升模型在未见场景下的工具组合能力。
- 动态推理循环:模型生成推理计划后,根据工具结果迭代调整策略(如首次搜索失败后自动切换代码执行)。
创新点
- 全工具协同:首次将代码执行、网页搜索、图像操作整合为动态工具链,支持单一轨迹中的多工具交互调用。
- 两阶段训练范式:通过冷启动解决工具调用“入门难”问题,再通过强化学习提升策略灵活性,避免直接强化学习导致的奖励欺骗现象。
- RealX-Bench 基准:构建覆盖 300 个真实场景问题的评测集,涵盖日常生活、媒体、体育等领域,填补多能力协同评估的空白。
评估标准
- RealX-Bench 基准测试:评估模型在感知、搜索、推理任务中的协同能力,重点关注需要多工具组合的复杂问题(如根据图像计算股票跌幅并对比竞品表现)。
- 传统基准对比:在视觉定位(refCOCO 系列)、数学推理(MathVista)、搜索任务(HR-Bench)中验证模型性能,DeepEyesV2 在多项指标上显著超越开源模型(如 MathVista 准确率达 70.1%)。
应用领域
- 教育辅导:解析试卷中的图表与几何图形,生成详细解题步骤。
- 医疗影像分析:识别影像特征并结合搜索结果辅助诊断(如分析肿瘤特征时调用医学文献数据库)。
- 智能交通:实时分析路况图像,结合搜索获取交通规则信息,辅助自动驾驶决策。
- 安防监控:识别监控视频中的异常行为(如盗窃、暴力),并自动搜索类似案件处理方案。
- 工业制造:分析设备图像以检测故障,结合代码执行模拟维修流程。
项目地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...