Logics-Parsing : 阿里开源的端到端文档解析模型

AI工具5小时前发布 FuturX-Editor
4 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Logics-Parsing是阿里巴巴开源的端到端文档解析模型,基于视觉语言模型(VLM)架构,旨在解决传统文档解析中“多工具拼接”导致的精度损失和兼容性问题。该模型可直接从文档图片生成结构化的HTML数据,保留文档的逻辑结构(如段落、表格、公式、化学结构等),并支持复杂排版场景(如多栏报纸、图文混排、跨页表格等)。2025年9月,阿里在云栖大会上正式发布该模型并同步开源,成为文档AI领域的重要突破。

Logics-Parsing : 阿里开源的端到端文档解析模型

功能特点

  1. 端到端统一模型:输入文档图片,直接输出带逻辑结构的HTML代码,无需OCR、布局检测等多阶段流水线处理。
  2. 复杂内容识别:支持数学公式、化学结构式(如SMILES格式)、手写内容、表格边界及行列结构识别。
  3. 精细化输出:输出结果包含类别标签(段落、表格、公式等)、位置坐标、OCR文本及噪声过滤(自动去除页眉、页脚、水印)。
  4. 高精度与高效性:在自建评测集(覆盖论文、报纸、海报等9大类文档)中表现SOTA(业界最佳),支持单GPU高效推理。

优缺点

  • 优点
    • 简化流程,降低复杂度,避免多工具拼接的误差累积。
    • 对复杂排版和科学内容的解析能力强,适用于学术、企业等场景。
    • 开源模型和工具链(如ModelScope、HuggingFace),社区支持完善。
  • 缺点
    • 对极低质量扫描件或艺术字体的识别可能受限。
    • 当前版本主要支持中英文,多语言(如阿拉伯语、日韩文)需后续升级。

框架技术原理

  • 基础架构:基于Qwen2.5-VL架构,通过监督微调(SFT)和强化学习(RL)训练。
  • 监督微调:融入化学式、手写汉字等多样化数据,提升模型对复杂元素的识别能力。
  • 强化学习:设计布局感知奖励机制,优化阅读顺序推断和复杂布局分析。例如,模型通过“试错”学习多栏文档的正确阅读路径,奖励符合逻辑的顺序,惩罚错误顺序。
  • 输出表示:生成Qwen-HTML格式,保留元素类别、边界框坐标及OCR文本,自动过滤无关内容。

创新点

  1. 端到端解析:首次实现从文档图片到结构化HTML的全流程统一模型,替代传统流水线方法。
  2. 强化学习驱动:通过RL解决LVLM(大型视觉语言模型)的“阅读障碍”,使模型学会规划最优阅读路径。
  3. 科学内容支持:精准识别数学公式、化学结构式等复杂元素,支持STEM学科文档解析。

评估标准

  • 结构准确性:HTML输出的逻辑结构与原始文档的一致性。
  • 元素识别率:公式、表格、化学结构等复杂内容的识别精度。
  • 阅读顺序合理性:多栏、跨页文档的阅读路径是否符合人类习惯。
  • 性能效率:单GPU推理速度及资源消耗。

应用领域

  • 学术研究:解析论文、专利、实验记录,支持知识检索和训练数据构建。
  • 企业文档处理:合同、发票、财报等结构化提取,降低人工处理成本。
  • 教育行业:扫描试卷、课堂笔记的自动化批改和内容分析。
  • 内容管理:新闻网站、出版社的文档归档和语义化存储。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...