Paper2Poster：加拿大滑铁卢大学、新加坡国立大学、牛津大学等机构推出的学术海报生成框架

637 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Paper2Poster主要介绍

Paper2Poster是加拿大滑铁卢大学、新加坡国立大学、牛津大学等机构推出的学术海报生成框架，基于多模态自动化技术，可实现从科学论文到海报的转化。其核心模块PosterAgent为自顶向下的多智能体系统，支持将长篇论文内容压缩转化为结构化视觉海报，在视觉质量、文本连贯性上表现出色，能显著提升学术海报制作效率并降低成本。

Paper2Poster：加拿大滑铁卢大学、新加坡国立大学、牛津大学等机构推出的学术海报生成框架

功能特点

长文本压缩：将多页科学论文压缩为单页海报，保留核心内容。
多模态内容处理：提取论文中的文字、图表、图像等多模态内容，合理整合到海报中。
布局优化：生成美观且逻辑清晰的海报布局，确保内容在有限空间内合理分布。
视觉质量提升：基于视觉反馈机制优化海报视觉效果，提高可读性和吸引力。
评估与优化：引入PaperQuiz评估方法，模拟读者回答问题衡量海报传达核心内容的能力，并根据反馈进行优化。

优缺点

优点：

高效生成：能够快速将长篇论文转化为海报，大大节省手动设计海报的时间和精力。
高质量输出：生成的海报在视觉上连贯且信息丰富，能有效传达论文核心内容。
灵活性：生成的海报以PPTX格式保存，用户可根据需要进一步编辑和调整。
成本效益：使用开源模型（如Qwen – 2.5系列）时，成本极低，甚至可以忽略不计。

缺点：

依赖模型：生成质量依赖于底层的LLM和VLM模型，若模型性能不足，可能导致生成的海报存在文本溢出、布局不合理等问题。
效率瓶颈：在处理大量海报生成任务时，由于面板级的生成–修订循环是串行执行的，可能会出现效率瓶颈。

如何使用

克隆项目到本地：通过命令git clone https://github.com/Paper2Poster/Paper2Poster.git将项目克隆到本地。
进入项目目录：使用cd Paper2Poster命令进入项目目录。
安装项目依赖：运行pip install -r requirements.txt安装项目依赖。
创建并配置.env文件：创建.env文件并添加OpenAI API key，例如使用命令echo "OPENAI_API_KEY=<your_openai_api_key>" > .env，注意替换<your_openai_api_key>为实际的OpenAI API密钥。
生成海报：根据需求选择不同的命令生成海报，如使用GPT – 4o模型时，命令为python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="4o" --model_name_v="4o" --poster_width_inches=48 --poster_height_inches=36；使用Qwen – 2.5 – 7B – Instruct和GPT – 4o模型时，命令为python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="vllm_qwen" --model_name_v="4o" --poster_width_inches=48 --poster_height_inches=36；使用本地Qwen – 2.5 – 7B – Instruct模型时，命令为python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="vllm_qwen" --model_name_v="vllm_qwen_vl" --poster_width_inches=48 --poster_height_inches=36；使用o3模型时，命令为python -m PosterAgent.new_pipeline --poster_path="{dataset_dir}/{paper_name}/paper.pdf" --model_name_t="o3" --model_name_v="o3" --poster_width_inches=48 --poster_height_inches=36。同时，要确保将{dataset_dir}和{paper_name}替换为实际的目录和文件名。

框架技术原理

Parser（解析器）：利用MARKER和DOCLING等工具将PDF转换为Markdown格式，再基于LLM生成结构化的JSON格式的资产库，将输入的论文PDF文件转换为结构化的资产库，提取关键的文本摘要和视觉元素（如图表、图像等）。
Planner（规划器）：将解析器生成的资产库中的文本和视觉元素对齐，生成二叉树布局，根据内容长度估计每个面板的大小，保持阅读顺序和空间平衡，用LLM进行语义匹配，将每个视觉元素与最相关的文本部分对齐。
Painter–Commenter（绘图器–评论器）：绘图器将文本和图像对齐并生成可执行的代码，用python – pptx库渲染面板；评论器是一个VLM，基于缩放参考提示（zoom – in reference prompts）提供反馈，确保面板内容没有溢出且布局合理，生成每个面板的具体内容，并基于视觉反馈机制优化面板布局。

创新点

多智能体协作：通过Parser、Planner和Painter–Commenter三个模块的协作，实现从论文到海报的高效生成。
视觉反馈机制：引入VLM作为评论者，对渲染出的面板图像进行评估并提供反馈，画家根据反馈不断调整面板内容，直到满足要求，确保海报的视觉效果和信息传达的有效性。
开源生态：完全开源，开发者可自由适配至医疗、教育等垂直场景，促进学术交流和研究的进步。