PromptEnhancer : 腾讯开源的文本到图像提示词增强框架

AI工具2小时前发布 FuturX-Editor
4 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

PromptEnhancer是腾讯混元团队开源的文本到图像(T2I)提示词增强框架,旨在解决AI绘画中“用户指令简短”与“模型需要精细化描述”之间的矛盾。通过思维链(Chain-of-Thought, CoT)提示重写专用奖励模型AlignEvaluator,该框架无需修改预训练T2I模型的权重,即可显著提升生成图像的准确性和语义对齐精度,尤其擅长处理属性绑定、否定指令、复杂关系等高难度场景。其开源内容包含模型权重、基准测试数据集及代码,支持HunyuanImage、Stable Diffusion、Imagen等主流T2I模型,降低优化成本。PromptEnhancer : 腾讯开源的文本到图像提示词增强框架

PromptEnhancer : 腾讯开源的文本到图像提示词增强框架

功能特点

  1. 思维链提示重写
    模拟人类设计师的思考过程,将简洁指令拆解为“核心元素-潜在歧义-细节补充”三步骤。例如,输入“可爱的猫”,重写为“橘色短毛猫趴在格子桌,爪边放饼干,水彩风”,补充背景、动作、风格等细节。
  2. 专用奖励模型AlignEvaluator
    构建覆盖6大类、24个关键维度的评价体系(如语言理解、视觉属性、复杂关系),针对每个维度给出生成图像的“精准分数”,定位错误类型(如否定指令失效、属性绑定错误)。
  3. 两阶段训练优化
    • 监督微调(SFT):用大模型生成48.5万组“原始提示-思维链-精细化提示”数据,初始化重写器。
    • 强化学习(GRPO):将重写器生成的候选提示输入冻结的T2I模型,用AlignEvaluator打分,优化重写策略。
  4. 中英文双向支持
    支持中文提示词自动补全(如“画带‘Dream’的星空蛋糕”)和英文改写,避免表达模糊。

优缺点

优点

  • 通用性强:适配多种预训练T2I模型,无需修改权重,降低优化成本。
  • 精准度高:在属性绑定、否定指令、复杂关系等场景中,准确率提升17%以上。
  • 开源生态完善:提供数据集、模型权重和代码,支持社区二次开发。

缺点

  • 硬件要求较高:训练需大规模标注数据和算力支持,个人开发者部署门槛较高。
  • 复杂场景稳定性不足:在极端不确定性任务(如超长文本生成中的细节一致性)中,仍需优化训练稳定性。

如何使用

  1. 环境配置
    • 安装Hugging Face diffusers库和PyTorch:pip install diffusers transformers accelerate torch
    • 下载模型权重:从Hugging Face获取PromptEnhancer-7B版本。
  2. 输入提示词
    • 简洁指令(如“没有糖霜的草莓蛋糕”)。
  3. 自动重写
    • 框架生成精细化提示(如“油画作品描绘无糖霜草莓蛋糕,铺格子餐布的木桌,厚涂技法”)。
  4. 生成图像
    • 将重写后的提示输入T2I模型(如HunyuanImage 2.1),生成目标图像。

框架技术原理

  1. CoT-based重写器
    通过“思考-改写”结构,将用户指令转化为模型可理解的精细化描述。例如,用户输入“三只兔子”,重写器补充“从大到小排列,戴不同颜色领结,低多边形风格”。
  2. AlignEvaluator奖励模型
    基于24个关键维度(如物体数量、材质、反事实场景)评估生成图像,提供细粒度反馈。例如,“牛肉面没画葱”在“否定指令”维度得高分,“猫的颜色错误”在“属性绑定”维度得低分。
  3. 两阶段训练
    • SFT阶段:用大模型生成数据,训练重写器生成符合语法逻辑的提示。
    • GRPO阶段:通过强化学习优化重写策略,使生成的提示最大化AlignEvaluator奖励。

创新点

  1. 与生成模型解耦
    无需修改T2I模型权重,通过外部框架优化提示词,实现“即插即用”。
  2. 24维度细粒度评估
    覆盖T2I模型的所有“盲区”,精准定位错误类型,为提示优化提供明确方向。
  3. 高质量基准测试数据集
    开源包含6000条提示及多维度标注的数据集,推动提示优化技术的可解释性和可复现性研究。

评估标准

  1. 语义对齐精度
    通过SSAE评估(基于多模态大语言模型的智能评估指标),衡量生成图像与文本提示的匹配程度。
  2. 图像质量
    采用GSB评估(整体图像感知评估),由专业评估者对比生成图像的视觉效果。
  3. 细粒度维度准确率
    在24个关键维度(如否定指令、属性绑定)上测试准确率,验证框架对复杂场景的处理能力。

应用领域

  1. 广告设计
    快速生成高质量海报和宣传材料(如“春天的江南小桥流水”主题海报)。
  2. 插画创作
    帮助插画师生成创意草图,节省时间和精力(如“未来太空科幻故事”插画)。
  3. 游戏设计
    为游戏开发者生成角色、场景和道具的概念图(如“赛博朋克风格游泳池”场景)。
  4. 社交媒体内容
    快速生成吸引人的图片和视频(如“星空蛋糕”宣传图)。
  5. 视频制作
    生成高质量视频帧或概念图,辅助视频剪辑和特效制作(如“复古黑胶唱片店”宣传视频)。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...