ERNIE-4.5-VL –：百度文心开源的新一代多模态AI模型

AI工具2个月前发布 FuturX-Editor

162 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

ERNIE-4.5-VL是百度文心大模型家族的最新成员，于2025年正式开源。作为新一代多模态AI模型，它基于文心大模型4.5架构衍生而来，融合了文本、图像、视频等多种模态数据的处理能力，支持跨模态理解和生成任务。该模型以轻量化设计为核心，通过高效的混合专家（MoE）架构和创新的训练策略，在保持高性能的同时显著降低了计算资源需求，为多模态AI技术的普及化应用提供了可能。 ERNIE-4.5-VL –：百度文心开源的新一代多模态AI模型

功能特点

多模态理解与生成：ERNIE-4.5-VL能够同时处理文本、图像、视频等多种模态的数据，实现跨模态的信息对齐与融合。例如，它可以理解图像中的文字内容，或者根据文本描述生成相应的图像。
轻量化设计：模型采用轻量级架构，参数量控制得当，使得其可以在普通GPU甚至部分终端设备上运行，降低了部署门槛。
高效推理：通过优化模型结构和推理策略，ERNIE-4.5-VL在保持高精度的同时，实现了低延迟的推理速度，适用于实时性要求较高的应用场景。
跨模态检索与定位：模型支持基于图像或文本的跨模态检索任务，并能够输出目标对象的位置坐标或高亮区域，增强了交互的直观性。

优缺点

优点：
- 性能卓越：在权威多模态文档理解评测集OmniBenchDocV1.5中，ERNIE-4.5-VL以综合得分位列全球第一，超越了GPT-4o等其他主流模型。
- 轻量化与高效性：模型参数量控制得当，计算资源需求低，推理速度快，适合在资源受限的环境下部署。
- 开源生态：百度将模型权重、推理代码和项目均开源，允许商业使用，促进了技术的普及和社区的发展。
缺点：
- 特定任务需微调：尽管模型在通用多模态任务上表现优异，但在处理特定领域或复杂任务时，可能仍需进行额外的微调以优化性能。
- 低资源语言支持有限：尽管支持多种语言，但对部分低资源语言的优化仍需加强。

如何使用

环境准备：用户需要准备支持CUDA的GPU环境，并安装PaddlePaddle或PyTorch等深度学习框架。
模型下载：用户可以从Hugging Face、Modelscope、飞桨星河社区等平台下载ERNIE-4.5-VL的预训练权重和推理代码。
代码实现：使用PaddlePaddle或PyTorch加载模型，并编写相应的推理代码。

框架技术原理

混合专家（MoE）架构：ERNIE-4.5-VL采用MoE架构，通过动态选择性地激活不同的专家网络来处理输入，从而在保持高性能的同时提高训练和推理的效率。
异构模态融合：模型通过分层级的专家路由机制和参数分配策略，实现了文本、视觉等模态间的有机融合，既保留了模态特异性，又促进了跨模态知识转移。
自适应分辨率编码器：视觉模块采用NaViT（Native Vision Transformer）动态分辨率编码器，能够自适应不同尺寸和长宽比的图像输入，显著提升对不同版式文档的泛化能力。
多模态强化学习：在后训练阶段，模型采用多模态强化学习策略，通过模拟奖励和真人反馈优化交互稳定性，提升复杂场景下的鲁棒性。

创新点

“图像思考”功能：ERNIE-4.5-VL引入了“图像思考”功能，使其具备更接近人类的认知方式。模型能够主动放大、缩小图像，聚焦细节，并结合上下文进行多步推理。
视觉定位能力：模型新增了视觉定位功能，能够输出目标对象的位置坐标或高亮区域，增强了交互的直观性和实用性。
轻量化与高效性：通过优化模型结构和推理策略，ERNIE-4.5-VL在保持高性能的同时实现了轻量化设计，降低了计算资源需求和部署门槛。

评估标准

多模态文档理解评测集OmniBenchDocV1.5：该评测集涵盖了文本识别、版面分析、手写体处理、公式还原等四大核心能力，是评估多模态文档理解模型性能的重要基准。
跨模态检索任务：评估模型在基于图像或文本的跨模态检索任务中的性能，包括准确率、召回率等指标。
实际应用场景测试：在实际应用场景中测试模型的性能表现，如智能文档处理、教育数字化、金融票据识别等领域的应用效果。

应用领域

智能文档处理：ERNIE-4.5-VL能够高效处理包括印刷文本、手写汉字、表格、数学公式、图表等在内的多种文档元素，适用于智能文档解析、信息提取等场景。
教育数字化：模型支持多语言翻译和跨文化理解，能够辅助教育行业实现数字化教学资源的建设和共享。
金融票据识别：在金融行业，ERNIE-4.5-VL可用于票据识别、合同解析等场景，提高业务处理效率和准确性。
多语言翻译：模型支持包括中文、英文、法语、西班牙语等在内的109种语言，适用于多语言翻译和跨语言交流场景。

项目地址

Hugging Face：https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
GitHub：https://github.com/PaddlePaddle/ERNIE
飞桨星河社区：https://aistudio.baidu.com/overview
魔搭社区：https://modelscope.cn/organization/PaddlePaddle

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

RoboBrain-X0 : 智源研究院开源的跨本体泛化具身模型

FuturX-Editor

474 0

Doubao-Seed-Translation：字节跳动的多语言翻译模型

FuturX-Editor

707 0

Wan2.5 : 阿里通义推出的多模态生成模型系列

FuturX-Editor

765 0

MindSearch——由上海人工智能实验室推出的AI搜索工具

FuturX-Editor

1,281 0

LLaSO ：逻辑智能开源的语音模型

FuturX-Editor

303 1

DGM自：具备自改进能力的AI Agent系统

FuturX-Editor

302 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号