pdf-craft是一款专注于处理扫描书籍的PDF转换工具,能够将PDF文件高效、精准地转换为Markdown或EPUB格式。它是一款开源软件,基于本地AI模型运行核心功能,同时支持远程调用大型语言模型(LLM)处理复杂任务,如生成带有目录和章节的EPUB文件。pdf-craft的设计目标是“高效、精准、隐私友好”,旨在提升扫描资料的数字化效率,改善用户的阅读体验。


功能特点
-
PDF转Markdown:
- 精准提取:能够智能提取正文内容,自动过滤页眉、页脚、脚注等干扰元素。
- 保留结构:保留原文档的结构,将插图、表格和公式以截图形式嵌入,生成可直接编辑的Markdown文件。
-
PDF转EPUB:
- 智能构建:通过大语言模型智能构建书籍目录结构,自动整理注释和引文。
- 适配阅读器:输出适配电子书阅读器的标准EPUB格式,提升电子书的阅读体验。
-
跨页内容处理:
- 保持连贯:通过AI算法自动判断文本逻辑关系,确保跨页内容的自然衔接,解决扫描文档转换中的跨页内容断裂问题。
-
阅读顺序优化:
- 符合习惯:利用layoutreader确定符合人类阅读习惯的文本块顺序,优化阅读体验。
-
高效与隐私保护:
- 本地运行:支持本地运行,无需联网,保护用户隐私。
- 模块化架构:采用模块化架构,支持本地和远程两种模式,灵活应对不同需求。
优缺点
优点:
- 高效精准:能够高效、精准地将PDF转换为Markdown或EPUB格式,提升扫描资料的数字化效率。
- 隐私友好:支持本地运行,无需联网,保护用户隐私。
- 功能丰富:具备智能清理页眉页脚、公式图表智能处理、自动构建目录和章节等功能。
- 开源免费:作为一款开源软件,用户可以免费使用并进行二次开发。
缺点:
- 学习成本:对于不熟悉Python编程的用户来说,可能需要一定的学习成本来掌握其使用方法。
- 硬件要求:在处理大规模PDF文件时,可能需要较高的硬件配置来支持GPU加速。
主要应用场景
- 学术研究:将扫描的学术论文、书籍等转换为可编辑的Markdown或EPUB格式,方便阅读和引用。
- 电子书制作:将PDF格式的电子书转换为EPUB格式,适配不同的电子书阅读器。
- 文档归档:将扫描的文档转换为可编辑的格式,方便归档和检索。


使用方法
-
安装pdf-craft:
- 确保已安装Python 3.10或更高版本(推荐3.10.16)。
- 使用pip包管理命令安装pdf-craft:
pip install pdf-craft
-
将PDF转换为Markdown:
- 导入必要的模块:
from pdf_craft import PDFPageExtractor, MarkDownWriter
- 创建PDF提取器对象:
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
(如需使用GPU加速,可将device
参数改为"cuda:0"
) - 创建Markdown写入器对象:
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
- 提取PDF内容并写入Markdown文件。
将PDF转换为EPUB(对于超过100页的书籍,推荐使用LLM如DeepSeek):
- 创建PDF提取器对象(同上)。
- 配置LLM对象。
- 分析PDF文件。
- 生成EPUB文件。
- 导入必要的模块:
收费标准
pdf-craft是一款开源软件,用户可以免费使用其全部功能。然而,在使用LLM服务(如DeepSeek)时,可能需要支付相应的服务费用。具体费用取决于LLM服务提供商的定价策略和使用量。对于本地运行模式下的小规模PDF转换任务,用户无需支付任何费用。
项目地址
AI工具和资源推荐-AI全网资源导航-aiguide.cc
相关导航
暂无评论...