InstanceAssemble ：小红书联合复旦推出的图像生成框架

AI工具2个月前发布 FuturX-Editor

505 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

InstanceAssemble是小红书与复旦大学联合研发的布局控制生成（Layout-to-Image）框架，旨在解决AI绘画中复杂场景下的布局对齐难题。该技术通过“实例拼装注意力”机制，实现从简单到密集布局的高精度图像生成，支持用户通过边界框和内容描述精准控制物体位置与语义属性。相关成果已被国际顶级学术会议NeurIPS 2025收录，并开源代码与预训练模型，推动AI绘画进入“精准构图”新阶段。 InstanceAssemble ：小红书联合复旦推出的图像生成框架

功能特点

精准布局控制：支持用户通过边界框坐标和文本描述，在指定区域生成符合语义的图像内容，无论是稀疏布局（如单物体场景）还是密集布局（如多物体复杂场景）均能保持高对齐精度。
轻量级适配：采用LoRA模块进行模型扩展，适配Stable Diffusion3-Medium仅需3.46%额外参数，适配Flux.1模型参数占比低至0.84%，无需重训全模型，显著降低计算资源消耗。
多模态输入支持：每个实例可通过文本描述或额外图像信息（如参考图、深度图）指定内容，增强语义理解能力。
强泛化性：在训练仅接触稀疏布局（≤10个实例）的情况下，仍能在密集场景（≥10个实例）中保持稳定性能，避免漏生成或位置紊乱。

优缺点

优点：

布局精度高：在密集布局测试中，布局准确率较现有方法提升42%，语义一致性指标提高37%。
资源效率优：轻量化设计使推理耗时和参数开销显著低于同类方法，平衡效率与效果。
应用门槛低：开源代码与预训练模型降低技术落地难度，支持快速集成至设计、广告等场景。

缺点：

复杂语义限制：对高度抽象或语义模糊的描述（如“抽象艺术风格”）可能需额外调优。
极端布局挑战：在极端重叠或极小物体场景下，需进一步优化注意力机制以避免细节丢失。

如何使用

访问开源平台：通过GitHub获取InstanceAssemble的代码库与预训练模型。
准备输入数据：
- 绘制边界框：在图像编辑工具中标注每个物体的位置（如矩形框）。
- 编写描述文本：为每个边界框内的物体提供内容描述（如“红色苹果”“蓝色沙发”）。
运行推理脚本：使用开源工具（如Gradio界面）上传边界框图像与描述文本，生成精准布局的图像。
调整参数优化结果：通过修改边界框位置、描述文本或加载不同风格的LoRA模块（如油画、3D风格），进一步定制输出效果。

框架技术原理

InstanceAssemble采用级联架构与动态实例注意力网络：

全局背景生成：利用扩散变换器（DiT）获取图像整体语境与背景。
局部精细控制：通过“实例组装注意力模块（Assemble-Attn）”逐个整合布局实例信息，每个实例的注意力计算仅在其对应区域内进行，避免干扰。
语义融合与输出：融合各实例特征并保持画面协调性，最终生成符合物理规律与语义逻辑的图像。

创新点

实例拼装注意力机制：独立处理每个实例的注意力计算，解决重叠或小物体布局难题。
轻量化适配方案：通过LoRA模块实现模型扩展，无需重训全模型，降低技术落地成本。
多模态布局输入：支持文本与图像混合描述，增强语义理解灵活性。
标准化评估体系：推出Denselayout基准测试集与LGS评估指标，量化布局生成质量。

评估标准

布局对齐指标（mIoU）：通过计算生成物体位置与给定边界框的交并比（IoU），衡量空间精度。
语义一致性指标（LGS）：利用视觉问答模型评估颜色、材质、形状等属性匹配度，结合三维空间匹配度与语义关联性等六维度量化结果。
泛化性测试：在训练数据仅包含稀疏布局的情况下，验证模型在密集场景中的稳定性。

应用领域

广告设计：快速生成符合品牌规范的宣传海报，通过调整边界框参数缩短设计时间（如从3小时缩短至45分钟）。
动漫创作：将分镜脚本转化为视觉画面，提升转化效率（如提升60%）。
室内设计：根据用户指定的家具位置与风格描述，生成虚拟场景渲染图。
数据增强：为机器学习模型生成多样化标注数据，提升训练效果。

项目地址

GitHub代码库：https://github.com/FireRedTeam/InstanceAssemble
论文链接：https://arxiv.org/abs/2509.16691

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

FuturX-Editor

225 0

FLUX-Text：阿里推出的多语言场景文本编辑框架

FuturX-Editor

721 0

OminiControl —— AI图像生成框架，实现图像主题控制和空间精确控制

FuturX-Editor

667 0

Grok Code Fast 1 ： xAI推出的AI编程模型

FuturX-Editor

486 0

Qwen3-LiveTranslate : 阿里通义推出的全模态同传大模型

FuturX-Editor

478 0

GLM-4.1V-Thinking ：智谱AI开源的视觉语言模型系列

FuturX-Editor

652 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2026 AI智库导航-aiguide.cc 沪ICP备2022030655号