Paper2Poster:加拿大滑铁卢大学、新加坡国立大学、牛津大学等机构推出的学术海报生成框架
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
Paper2Poster主要介绍
Paper2Poster是加拿大滑铁卢大学、新加坡国立大学、牛津大学等机构推出的学术海报生成框架,基于多模态自动化技术,可实现从科学论文到海报的转化。其核心模块PosterAgent为自顶向下的多智能体系统,支持将长篇论文内容压缩转化为结构化视觉海报,在视觉质量、文本连贯性上表现出色,能显著提升学术海报制作效率并降低成本。

功能特点
- 长文本压缩:将多页科学论文压缩为单页海报,保留核心内容。
- 多模态内容处理:提取论文中的文字、图表、图像等多模态内容,合理整合到海报中。
- 布局优化:生成美观且逻辑清晰的海报布局,确保内容在有限空间内合理分布。
- 视觉质量提升:基于视觉反馈机制优化海报视觉效果,提高可读性和吸引力。
- 评估与优化:引入PaperQuiz评估方法,模拟读者回答问题衡量海报传达核心内容的能力,并根据反馈进行优化。
优缺点
优点:
- 高效生成:能够快速将长篇论文转化为海报,大大节省手动设计海报的时间和精力。
- 高质量输出:生成的海报在视觉上连贯且信息丰富,能有效传达论文核心内容。
- 灵活性:生成的海报以PPTX格式保存,用户可根据需要进一步编辑和调整。
- 成本效益:使用开源模型(如Qwen – 2.5系列)时,成本极低,甚至可以忽略不计。
缺点:
- 依赖模型:生成质量依赖于底层的LLM和VLM模型,若模型性能不足,可能导致生成的海报存在文本溢出、布局不合理等问题。
- 效率瓶颈:在处理大量海报生成任务时,由于面板级的生成–修订循环是串行执行的,可能会出现效率瓶颈。
如何使用
- 克隆项目到本地:通过命令
git clone https://github.com/Paper2Poster/Paper2Poster.git
将项目克隆到本地。 - 进入项目目录:使用
cd Paper2Poster
命令进入项目目录。 - 安装项目依赖:运行
pip install -r requirements.txt
安装项目依赖。 - 创建并配置.env文件:创建
.env
文件并添加OpenAI API key,例如使用命令echo "OPENAI_API_KEY=<your_openai_api_key>" > .env
,注意替换<your_openai_api_key>
为实际的OpenAI API密钥。 - 生成海报:根据需求选择不同的命令生成海报,如使用GPT – 4o模型时,命令为
python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="4o" --model_name_v="4o" --poster_width_inches=48 --poster_height_inches=36
;使用Qwen – 2.5 – 7B – Instruct和GPT – 4o模型时,命令为python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="vllm_qwen" --model_name_v="4o" --poster_width_inches=48 --poster_height_inches=36
;使用本地Qwen – 2.5 – 7B – Instruct模型时,命令为python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="vllm_qwen" --model_name_v="vllm_qwen_vl" --poster_width_inches=48 --poster_height_inches=36
;使用o3模型时,命令为python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="o3" --model_name_v="o3" --poster_width_inches=48 --poster_height_inches=36
。同时,要确保将{dataset_dir}
和{paper_name}
替换为实际的目录和文件名。
框架技术原理
- Parser(解析器):利用MARKER和DOCLING等工具将PDF转换为Markdown格式,再基于LLM生成结构化的JSON格式的资产库,将输入的论文PDF文件转换为结构化的资产库,提取关键的文本摘要和视觉元素(如图表、图像等)。
- Planner(规划器):将解析器生成的资产库中的文本和视觉元素对齐,生成二叉树布局,根据内容长度估计每个面板的大小,保持阅读顺序和空间平衡,用LLM进行语义匹配,将每个视觉元素与最相关的文本部分对齐。
- Painter–Commenter(绘图器–评论器):绘图器将文本和图像对齐并生成可执行的代码,用python – pptx库渲染面板;评论器是一个VLM,基于缩放参考提示(zoom – in reference prompts)提供反馈,确保面板内容没有溢出且布局合理,生成每个面板的具体内容,并基于视觉反馈机制优化面板布局。
创新点
- 多智能体协作:通过Parser、Planner和Painter–Commenter三个模块的协作,实现从论文到海报的高效生成。
- 视觉反馈机制:引入VLM作为评论者,对渲染出的面板图像进行评估并提供反馈,画家根据反馈不断调整面板内容,直到满足要求,确保海报的视觉效果和信息传达的有效性。
- 开源生态:完全开源,开发者可自由适配至医疗、教育等垂直场景,促进学术交流和研究的进步。
评估标准
- 视觉质量:通过CLIP图像嵌入计算生成海报与人类设计海报之间的视觉相似性,以及图表与对应文本部分之间的相关性。
- 文本连贯性:使用Llama – 2 – 7b – hf模型计算海报文本的困惑度(PPL),以评估语言的流畅性和可预测性。
- 整体评估:通过VLM作为评委,对海报的美学和信息质量进行细粒度的评分,涵盖元素质量、布局平衡、吸引力、清晰度、内容完整性和逻辑流程六个方面。
- PaperQuiz:设计一套基于VLM的测验,通过让VLM回答从论文中生成的多项选择题,来评估海报传达核心论文内容的能力。
应用领域
- 学术会议:帮助研究人员快速将论文转化为海报,用于会议展示,节省时间和精力。
- 学术报告:生成的海报可作为学术报告的辅助材料,帮助观众更好地理解研究内容。
- 科研成果展示:在科研机构或实验室中,用于展示最新的研究成果,便于同行交流和学习。
- 教育领域:教师可生成教学用的海报,帮助学生更直观地理解复杂的学术概念。
- 在线学术平台:为在线学术平台提供自动化的海报生成工具,提升用户体验,促进学术交流。
项目地址
- 项目官网:https://paper2poster.github.io/
- HuggingFace模型库:https://huggingface.co/datasets/Paper2Poster/Paper2Poster
- arXiv技术论文:https://arxiv.org/pdf/2505.21497
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...