PromptEnhancer–腾讯开源的文本到图像提示词增强框架

PromptEnhancer是什么

PromptEnhancer是腾讯混元团队开源的用在提升文本到图像(T2I)模型的提示重写框架,通过思维链(Chain-of-Thought,CoT)提示重写和专用的奖励模型AlignEvaluator,显著提升T2I模型对复杂用户指令的理解和图像生成的准确性。框架无需修改T2I模型的权重,具有通用性和即插即用的特性,适用多种预训练模型。PromptEnhancer通过两阶段训练(监督微调和强化学习)优化提示,使生成图像更符合用户意图。

PromptEnhancer

PromptEnhancer的主要功能

  • 提升文本到图像模型的准确性和对齐精度:PromptEnhancer通过优化用户输入的文本提示,显著提升文本到图像(T2I)模型生成图像的准确性和与用户意图的对齐精度,能更好地处理复杂的用户指令,包括属性绑定、否定指令和复杂的关系描述。
  • 通用性和即插即用:无需修改任何预训练T2I模型的权重,能作为通用模块适配多种预训练模型,如HunyuanImage、Stable Diffusion、Imagen等,降低优化成本。
  • 提供高质量基准测试数据集:开源包含6000条Prompt及对应多维度精细标注的高质量基准测试数据集,为研究人员提供重要的参考资源,推动提示优化技术的可解释性和可复现性研究。

PromptEnhancer的技术原理

  • 思维链(Chain-of-Thought,CoT)提示重写:引入思维链机制,模拟人类设计师的思考过程,将简洁的用户指令拆解为“核心元素-潜在歧义-细节补充”三步骤。
  • 专用奖励模型AlignEvaluator:构建一个覆盖6大类别、24个关键维度的评价体系,通过大规模标注数据训练AlignEvaluator,能针对每个维度给出生成图像的“精准分数”。维度包括语言理解(如否定指令、代词指代)、视觉属性(如物体数量、材质、表情)和复杂关系(如包含关系、相似关系、反事实场景)等。
  • 两阶段训练
    • 第一阶段:监督微调(SFT):通过监督微调初始化CoT重写器,能生成符合语法逻辑的精细化提示。用大模型生成的大量“原始提示-思维链-精细化提示”数据进行训练。
    • 第二阶段:基于生成奖励的策略优化(GRPO):将重写器生成的多个候选提示输入冻结的T2I模型,用AlignEvaluator对生成图像打分。通过“奖励越高的提示越受重视”的逻辑,优化重写器的策略,使其生成的提示能最大化图像与用户意图的对齐。

PromptEnhancer的项目地址

  • 项目官网:https://hunyuan-promptenhancer.github.io/
  • GitHub仓库:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
  • HuggingFace模型库:https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
  • arXiv技术论文:https://www.arxiv.org/pdf/2509.04545

PromptEnhancer的应用场景

  • 广告设计:快速生成高质量的广告海报和宣传材料,提升设计效率。
  • 插画创作:帮助插画师快速生成创意草图,节省时间和精力。
  • 游戏设计:为游戏开发者快速生成游戏角色、场景和道具的概念图,加速游戏开发流程。
  • 社交媒体内容:快速生成吸引人的社交媒体图片和视频,提升内容的吸引力。
  • 视频制作:在视频内容创作中,生成高质量的视频帧或概念图,辅助视频剪辑和特效制作。

相关文章