Stable Diffusion 3 Medium——Stability AI开源文生图模型

AI工具2年前 (2024)发布 FuturX-Editor

858 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Stable Diffusion 3 Medium是一种多模态扩散转换器(MMDiT)文本到图像模型，模型参数为20亿，其特点是在图像质量、排版、复杂提示理解和资源效率方面大大提高了性能。它在图像质量、排版、复杂提示理解和资源效率方面实现了显著提升，为用户提供高质量的图像生成能力。

Stable Diffusion 3 Medium——Stability AI开源文生图模型

Stable Diffusion 3 Medium的功能特色

照片级真实感：克服了手和脸部常见的伪影问题，无需复杂流程即可生成高质量图像。
复杂提示理解能力：能够理解涉及空间关系、构图元素、动作和风格的复杂提示语，并生成符合要求的图像。
图文混排能力：借助DiT架构，可以无伪影且无拼写错误地生成前所未有的文本内容。
资源高效性：由于内存占用小，适合在标准消费级GPU上运行而不会性能下降。
微调能力：能够从小型数据集中吸收细微细节，非常适合定制和个性化需求。

Stable Diffusion 3 Medium的官网入口

Stable Diffusion 3 Medium并未直接提供官网入口，但可以通过Hugging Face平台访问其模型页面。具体地址：https://huggingface.co/stabilityai/stable-diffusion-3-medium

Stable Diffusion 3 Medium的技术原理

Stable Diffusion 3 Medium基于多模态扩散转换器（MMDiT）架构，结合使用三个固定的、预训练的文本编码器（OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl）。该模型通过直接流量匹配（CFM）方法训练，无需模拟ODE，提高了训练效率。同时，改进的时间步长采样策略和多模态变换器架构的创新，使模型能够更好地学习到数据和噪声之间的直线路径，并更有效地处理文本和图像数据。