InternVL3.5 – 上海AI Lab开源的多模态大模型

AI工具3个月前发布 FuturX-Editor

673 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

InternVL3.5是上海人工智能实验室（上海AI Lab）推出的开源多模态大模型，旨在通过统一的原生多模态训练范式，同时处理文本、图像、视频等多种模态数据。该模型覆盖从1B到241B参数的密集型和专家混合（MoE）架构，在通用多模态能力、推理性能和运行效率上实现突破，性能直逼GPT-5等顶级商业模型，成为开源社区的重要里程碑。

InternVL3.5 – 上海AI Lab开源的多模态大模型

功能特点

原生多模态训练：在预训练阶段联合优化文本和多模态数据，避免传统多阶段对齐的复杂性，提升跨模态协同能力。
级联强化学习（Cascade RL）：通过离线RL（稳定收敛）和在线RL（精细对齐）两阶段训练，显著提升推理能力，在MMMU和MathVista等基准测试中性能提升16%。
视觉分辨率路由器（ViR）：动态调整视觉标记分辨率，平衡计算效率与性能，例如将部分图像块从256token压缩至64token，推理速度提升最高4.05倍。
解耦视觉-语言部署（DvD）：将视觉编码器和语言模型部署在不同GPU上，通过异步流水线减少资源冲突，提升吞吐量。
长上下文支持：采用动态高分辨率文本分词器（如Qwen3或GPT-OSS），支持32K标记的上下文长度，适应长文本理解与推理任务。

优缺点

优点：

性能领先：在35个公开基准测试中，综合得分与GPT-5持平（74.1 vs 74.0），推理和数学能力超越多数开源及部分商业模型。
效率优化：ViR和DvD技术使推理速度提升4倍，降低部署门槛。
全栈开源：模型权重、训练代码和数据集全面公开，推动社区技术发展。

缺点：

中文支持待完善：当前版本对中文数据的覆盖和优化不足，需进一步本地化。
高算力需求：尽管效率优化显著，但241B参数模型的训练和部署仍需大规模GPU集群支持。

如何使用

模型下载：从HuggingFace模型库获取预训练权重（如InternVL3_5-241B-A28B）。
环境配置：基于XTuner框架搭建训练环境，支持多模态数据加载和分布式推理。
任务适配：
- 多模态对话：通过视觉编码器提取图像特征，结合语言模型生成文本响应。
- 推理任务：启用“思考模式”进行逐步推理，或使用Best-of-N策略从多个候选答案中筛选最优解。
- 高分辨率处理：利用ViR动态压缩视觉标记，平衡速度与精度。

框架技术原理

模型架构：采用“ViT–MLP–LLM”范式，包含：
- 视觉编码器：InternViT-300M或InternViT-6B，将图像/视频帧编码为视觉标记。
- 语言模型：基于Qwen3或GPT-OSS初始化，支持长文本生成。
- 视觉-语言连接器：对齐视觉和文本标记，实现跨模态交互。
训练流程：
- 预训练：联合优化文本和多模态语料库（约1.16亿样本，2500亿标记），学习通用视觉-语言表示。
- 后训练：
  - 监督微调（SFT）：利用高质量对话数据增强指令遵循能力。
  - 级联强化学习（Cascade RL）：通过离线和在线RL提升推理性能。
  - 视觉一致性学习（ViCO）：训练ViR模块，确保不同分辨率下的输出一致性。

创新点

级联强化学习框架：首次将离线和在线RL结合，解决传统RL训练成本高、不稳定的问题。
语义感知的动态压缩：ViR模块根据图像块语义丰富度自动选择压缩率，减少冗余计算。
解耦部署策略：DvD框架通过异步流水线最大化硬件利用率，降低推理延迟。
测试时扩展（TTS）：支持“深度思考”（逐步推理）和“并行思考”（多候选筛选），提升复杂任务处理能力。

评估标准

综合性能：在MMMU（多学科理解）、MathVista（视觉数学推理）、VSI-Bench（空间推理）等基准测试中评估模型能力。
效率指标：测量推理速度、吞吐量和资源占用率，验证ViR和DvD的优化效果。
真实世界交互：通过GUI代理（如WindowsAgentArena）和具身智能任务（如VSI-Bench）评估模型在复杂环境中的适应性。

应用领域

多模态对话系统：支持图像、视频和文本的联合理解，适用于智能客服、教育辅导等场景。
内容创作：自动生成图像描述、视频摘要或多模态故事。
智能体（Agent）：在图形用户界面（GUI）交互、具身智能任务中表现突出，例如自动化软件测试和机器人控制。
专业领域推理：覆盖数学、科学、医学等多学科问题，辅助科研和决策。

项目地址

模型权重与代码：HuggingFace: OpenGVLab/InternVL3_5-241B-A28B
技术论文：arXiv: InternVL3.5 Technical Report

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

rStar2-Agent ：微软开源的数学推理模型

FuturX-Editor

545 0

Insert Anything：浙大联合哈佛大学与南洋理工推出的图像插入框架

FuturX-Editor

454 0

FLUX.1—— Stable Diffusion创始团队推出的开源AI图像生成模型

FuturX-Editor

393 0

SAM 2——Meta推出的AI对象分割模型

FuturX-Editor

466 0

TradingAgents-CN ：中文多智能体金融交易决策框架

FuturX-Editor

1,439 0

Auto-Deep-Research —— 香港大学开源的全自动个人 AI 助理

FuturX-Editor

859 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2025 AI智库导航-aiguide.cc 沪ICP备2022030655号