InstanceAssemble : 小红书联合复旦推出的图像生成框架

AI工具2小时前发布 FuturX-Editor
7 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

InstanceAssemble是小红书与复旦大学联合研发的布局控制生成(Layout-to-Image)框架,旨在解决AI绘画中复杂场景下的布局对齐难题。该技术通过“实例拼装注意力”机制,实现从简单到密集布局的高精度图像生成,支持用户通过边界框和内容描述精准控制物体位置与语义属性。相关成果已被国际顶级学术会议NeurIPS 2025收录,并开源代码与预训练模型,推动AI绘画进入“精准构图”新阶段。InstanceAssemble : 小红书联合复旦推出的图像生成框架

功能特点

  1. 精准布局控制:支持用户通过边界框坐标和文本描述,在指定区域生成符合语义的图像内容,无论是稀疏布局(如单物体场景)还是密集布局(如多物体复杂场景)均能保持高对齐精度。
  2. 轻量级适配:采用LoRA模块进行模型扩展,适配Stable Diffusion3-Medium仅需3.46%额外参数,适配Flux.1模型参数占比低至0.84%,无需重训全模型,显著降低计算资源消耗。
  3. 多模态输入支持:每个实例可通过文本描述或额外图像信息(如参考图、深度图)指定内容,增强语义理解能力。
  4. 强泛化性:在训练仅接触稀疏布局(≤10个实例)的情况下,仍能在密集场景(≥10个实例)中保持稳定性能,避免漏生成或位置紊乱。

优缺点

优点

  • 布局精度高:在密集布局测试中,布局准确率较现有方法提升42%,语义一致性指标提高37%。
  • 资源效率优:轻量化设计使推理耗时和参数开销显著低于同类方法,平衡效率与效果。
  • 应用门槛低:开源代码与预训练模型降低技术落地难度,支持快速集成至设计、广告等场景。

缺点

  • 复杂语义限制:对高度抽象或语义模糊的描述(如“抽象艺术风格”)可能需额外调优。
  • 极端布局挑战:在极端重叠或极小物体场景下,需进一步优化注意力机制以避免细节丢失。

如何使用

  1. 访问开源平台:通过GitHub获取InstanceAssemble的代码库与预训练模型。
  2. 准备输入数据
    • 绘制边界框:在图像编辑工具中标注每个物体的位置(如矩形框)。
    • 编写描述文本:为每个边界框内的物体提供内容描述(如“红色苹果”“蓝色沙发”)。
  3. 运行推理脚本:使用开源工具(如Gradio界面)上传边界框图像与描述文本,生成精准布局的图像。
  4. 调整参数优化结果:通过修改边界框位置、描述文本或加载不同风格的LoRA模块(如油画、3D风格),进一步定制输出效果。

框架技术原理

InstanceAssemble采用级联架构与动态实例注意力网络:

  1. 全局背景生成:利用扩散变换器(DiT)获取图像整体语境与背景。
  2. 局部精细控制:通过“实例组装注意力模块(Assemble-Attn)”逐个整合布局实例信息,每个实例的注意力计算仅在其对应区域内进行,避免干扰。
  3. 语义融合与输出:融合各实例特征并保持画面协调性,最终生成符合物理规律与语义逻辑的图像。

创新点

  1. 实例拼装注意力机制:独立处理每个实例的注意力计算,解决重叠或小物体布局难题。
  2. 轻量化适配方案:通过LoRA模块实现模型扩展,无需重训全模型,降低技术落地成本。
  3. 多模态布局输入:支持文本与图像混合描述,增强语义理解灵活性。
  4. 标准化评估体系:推出Denselayout基准测试集与LGS评估指标,量化布局生成质量。

评估标准

  1. 布局对齐指标(mIoU):通过计算生成物体位置与给定边界框的交并比(IoU),衡量空间精度。
  2. 语义一致性指标(LGS):利用视觉问答模型评估颜色、材质、形状等属性匹配度,结合三维空间匹配度与语义关联性等六维度量化结果。
  3. 泛化性测试:在训练数据仅包含稀疏布局的情况下,验证模型在密集场景中的稳定性。

应用领域

  1. 广告设计:快速生成符合品牌规范的宣传海报,通过调整边界框参数缩短设计时间(如从3小时缩短至45分钟)。
  2. 动漫创作:将分镜脚本转化为视觉画面,提升转化效率(如提升60%)。
  3. 室内设计:根据用户指定的家具位置与风格描述,生成虚拟场景渲染图。
  4. 数据增强:为机器学习模型生成多样化标注数据,提升训练效果。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...