PromptEnhancer : 腾讯开源的文本到图像提示词增强框架

290 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

PromptEnhancer是腾讯混元团队开源的文本到图像（T2I）提示词增强框架，旨在解决AI绘画中“用户指令简短”与“模型需要精细化描述”之间的矛盾。通过思维链（Chain-of-Thought, CoT）提示重写和专用奖励模型AlignEvaluator，该框架无需修改预训练T2I模型的权重，即可显著提升生成图像的准确性和语义对齐精度，尤其擅长处理属性绑定、否定指令、复杂关系等高难度场景。其开源内容包含模型权重、基准测试数据集及代码，支持HunyuanImage、Stable Diffusion、Imagen等主流T2I模型，降低优化成本。 PromptEnhancer : 腾讯开源的文本到图像提示词增强框架

功能特点

思维链提示重写：
模拟人类设计师的思考过程，将简洁指令拆解为“核心元素-潜在歧义-细节补充”三步骤。例如，输入“可爱的猫”，重写为“橘色短毛猫趴在格子桌，爪边放饼干，水彩风”，补充背景、动作、风格等细节。
专用奖励模型AlignEvaluator：
构建覆盖6大类、24个关键维度的评价体系（如语言理解、视觉属性、复杂关系），针对每个维度给出生成图像的“精准分数”，定位错误类型（如否定指令失效、属性绑定错误）。
两阶段训练优化：
- 监督微调（SFT）：用大模型生成48.5万组“原始提示-思维链-精细化提示”数据，初始化重写器。
- 强化学习（GRPO）：将重写器生成的候选提示输入冻结的T2I模型，用AlignEvaluator打分，优化重写策略。
中英文双向支持：
支持中文提示词自动补全（如“画带‘Dream’的星空蛋糕”）和英文改写，避免表达模糊。

优缺点

优点：

通用性强：适配多种预训练T2I模型，无需修改权重，降低优化成本。
精准度高：在属性绑定、否定指令、复杂关系等场景中，准确率提升17%以上。
开源生态完善：提供数据集、模型权重和代码，支持社区二次开发。

缺点：

硬件要求较高：训练需大规模标注数据和算力支持，个人开发者部署门槛较高。
复杂场景稳定性不足：在极端不确定性任务（如超长文本生成中的细节一致性）中，仍需优化训练稳定性。

如何使用

环境配置：
- 安装Hugging Face diffusers库和PyTorch：pip install diffusers transformers accelerate torch。
- 下载模型权重：从Hugging Face获取PromptEnhancer-7B版本。
输入提示词：
- 简洁指令（如“没有糖霜的草莓蛋糕”）。
自动重写：
- 框架生成精细化提示（如“油画作品描绘无糖霜草莓蛋糕，铺格子餐布的木桌，厚涂技法”）。
生成图像：
- 将重写后的提示输入T2I模型（如HunyuanImage 2.1），生成目标图像。

框架技术原理

CoT-based重写器：
通过“思考-改写”结构，将用户指令转化为模型可理解的精细化描述。例如，用户输入“三只兔子”，重写器补充“从大到小排列，戴不同颜色领结，低多边形风格”。
AlignEvaluator奖励模型：
基于24个关键维度（如物体数量、材质、反事实场景）评估生成图像，提供细粒度反馈。例如，“牛肉面没画葱”在“否定指令”维度得高分，“猫的颜色错误”在“属性绑定”维度得低分。
两阶段训练：
- SFT阶段：用大模型生成数据，训练重写器生成符合语法逻辑的提示。
- GRPO阶段：通过强化学习优化重写策略，使生成的提示最大化AlignEvaluator奖励。