Dolphin : 字节跳动开源的文档解析大模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Dolphin是由字节跳动开源的文档解析大模型,专注于高效处理复杂文档图像中的文本、表格、公式等元素。该模型通过创新的“先解析结构后解析内容”两阶段范式,结合异构锚点提示技术,显著提升了解析精度和效率。Dolphin支持页面级和元素级解析,能够将文档图像转换为结构化的JSON或Markdown格式,适用于学术论文、金融报告、法律文件等多种场景。其轻量级架构(322M参数)和并行解析设计,使其在保持高性能的同时,具有更低的计算资源需求。

功能特点
- 两阶段解析范式:
- 页面级布局分析:生成按自然阅读顺序排列的元素序列,全面分析页面布局。
- 并行元素解析:利用异构锚点和任务特定提示,高效并行解析文档中的各个元素。
- 多类型元素支持:支持文本、表格、公式、图表等15种不同类型的文档元素解析。
- 结构化输出:将解析结果转换为JSON或Markdown格式,便于后续处理和存储。
- 高效并行处理:通过并行解析设计,显著提升处理速度,效率比基线模型提升近2倍。
- 轻量级架构:模型参数量仅322M,体积小、速度快,适合部署在资源受限的环境中。
优缺点
优点:
- 解析精度高:在多种文档解析任务上超越GPT-4.1、Mistral-OCR等模型。
- 效率突出:并行解析设计大幅缩短处理时间,适合大规模文档处理。
- 灵活性强:支持页面级和元素级解析,满足不同场景需求。
- 轻量级设计:低参数量和计算资源需求,降低部署成本。
缺点:
- 语言支持有限:目前主要支持中英文文档解析,其他语言支持可能不足。
- 复杂场景适应性:在极端复杂的文档布局或低质量图像下,解析效果可能下降。
如何使用
- 安装依赖:
- 加载模型:
- 处理文档图像:
- 生成解析结果:
框架技术原理
Dolphin基于视觉编码器-解码器架构,采用Transformer技术:
- 视觉编码器:使用Swin Transformer从文档图像中提取视觉特征。
- 文本解码器:基于MBart,从视觉特征中解码文本。
- 异构锚点提示:针对不同类型的文档元素(如段落、表格、公式等)使用特定的处理方式,提升解析精度。
- 两阶段解析:
- 第一阶段:生成文档布局元素序列,包括元素类别和坐标位置。
- 第二阶段:使用布局信息裁剪元素局部视图,配合特定提示词并行解析内容。
创新点
- “先解析结构后解析内容”范式:避免传统商用方案中多OCR专家模型级联带来的错误累积问题。
- 异构锚点提示技术:针对不同元素类型使用特定提示词,提升解析精度。
- 元素解耦解析策略:通过解耦布局和内容解析,降低数据收集难度,提升模型泛化能力。
- 轻量级与高效性:在保持高性能的同时,显著降低模型参数量和计算资源需求。
评估标准
- 解析准确率:通过编辑距离(Edit Distance)等指标评估解析结果与真实值的差异。
- 处理效率:衡量模型每秒处理的帧数(FPS),评估实时性能。
- 结构化输出质量:检查生成的JSON或Markdown格式是否符合预期,元素分类和坐标是否准确。
- 泛化能力:在多种类型文档(如学术论文、金融报告、法律文件等)上测试模型表现。
应用领域
- 智能文档处理:自动化提取和组织文档中的信息,提升办公效率。
- 学术论文分析:解析包含复杂公式、图表和表格的科学文献。
- 金融文档处理:处理包含表格和数据的财务报告,支持风险分析和决策。
- 法律文档分析:解析结构化的法律文件和合同,提取关键条款。
- 技术文档转换:将技术手册和规范转换为结构化数据,便于检索和管理。
项目地址
- GitHub仓库:https://github.com/bytedance/Dolphin
- Hugging Face模型页面:https://huggingface.co/ByteDance/Dolphin
- 论文链接:https://arxiv.org/abs/2505.14059
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...