FireRed-OCR : 小红书开源的文档结构解析视觉语言模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
FireRed-OCR是小红书团队开源的一款轻量级文档结构解析视觉语言模型,它以仅2B(20亿)参数的规模,在权威的文档解析基准测试OmniDocBench v1.5中取得了92.94%的综合得分,超越了GPT-5.2、Gemini-3.0 Pro及Qwen3-VL-235B等超大模型,实现了“小模型击败大模型”的突破。该模型专注于解决文档解析中的“结构幻觉”问题,能够精准提取复杂表格、数学公式、层级标题等内容,并转换为标准Markdown格式。
功能特点
- 复杂表格提取:从杂乱PDF和扫描文档中精准识别并提取表格结构,保持行列对应关系。
- 数学公式解析:准确识别文档中的数学公式,转换为标准LaTeX或Markdown格式。
- 层级结构还原:智能识别文档中的标题层级(H1-H6)、段落缩进、列表符号等,生成符合规范的Markdown层级结构。
- 多格式文档转换:支持PDF、扫描图片、学术论文、财务报告等多种格式文档一键转换为结构化Markdown文本。
- 抗结构幻觉:通过GRPO强化学习优化,显著减少内容编造、行序错乱、层级混乱等常见文档解析错误。
优缺点
优点:
- 轻量化部署:2B参数规模,支持本地部署和API调用,降低算力成本。
- 高精度解析:在复杂表格、数学公式、层级结构等场景下表现优异。
- 多场景适配:适用于财务报告数字化、学术论文解析、合同文档结构化、书籍内容提取等专业场景。
缺点:
- 面对质量极差的扫描件性能下滑:从FireRedBench的得分来看,即使是FireRed-OCR,面对质量极差的扫描件也会有明显性能下滑(整体降至74分左右)。实际使用时,尽量提供≥150 DPI的图像,效果会更稳定。
- 极致精度需求场景受限:如果对精度要求极致,且有工程资源维护多模型系统,PaddleOCR-VL-1.5或GLM-OCR在标准基准上仍有约1-2%的优势。
如何使用
- 访问ModelScope平台:FireRed-OCR已在ModelScope平台开源,用户可以直接体验Demo或下载权重进行本地部署。
- 选择部署方式:根据需求选择本地部署或API调用,本地部署需要一定的算力资源,而API调用则更加便捷。
- 上传文档:上传需要解析的文档,支持PDF、扫描图片、学术论文、财务报告等多种格式。
- 获取解析结果:模型将自动解析文档结构,并输出标准Markdown格式的文本,用户可以直接使用或进行进一步编辑。
框架技术原理
FireRed-OCR基于Qwen3-VL-2B-Instruct多模态大模型构建,采用三阶段渐进式训练策略:
- 多任务预对齐:同时训练区域检测、区域识别和布局转Markdown三个任务,建立模型对文档空间布局的感知能力。
- 专项SFT:在高质量、标准化的Markdown数据集上进行监督微调,确保输出逻辑一致性和层级表达准确性。
- 格式约束GRPO:应用Group Relative Policy Optimization强化学习算法,通过格式奖励机制优化输出质量,包括公式语法有效性奖励、表格完整性奖励、层级闭合性奖励和文本准确性奖励。
创新点
- 三阶段渐进式训练:通过多任务预对齐、专项SFT和格式约束GRPO三个阶段的训练,逐步提升模型的文档解析能力。
- 格式约束强化学习:引入专门的格式奖励信号,覆盖公式语法正确性、表格结构完整性、层级标签闭合性和文本准确率四个维度,显著降低结构幻觉发生率。
- 轻量化部署:2B参数规模,支持本地部署和API调用,降低算力成本,适合中小企业和个人开发者使用。
评估标准
FireRed-OCR在OmniDocBench v1.5权威评测中,以92.94%的综合得分登顶端到端方案第一。该基准测试涵盖了复杂表格、数学公式、层级结构等多个维度,能够全面评估模型的文档解析能力。此外,FireRed-OCR在文字识别单项(OCRBench TextRec)中也以93.5分位居所有参测模型首位。
应用领域
- 财务报告数字化:精准提取上市公司财报、审计报告中的复杂表格和财务数据,转换为结构化Markdown,便于财务分析和数据入库。
- 学术论文解析:识别研究论文中的数学公式、图表标题、参考文献层级,生成标准学术格式文本,助力文献管理和知识提取。
- 合同文档结构化:将扫描版合同、法律文件转换为可编辑的结构化文本,保留条款层级和关键信息,提升法务文档处理效率。
- 书籍杂志电子化:处理扫描版书籍、期刊杂志,还原目录层级和正文排版,快速构建可搜索的数字图书馆。
项目地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...