Manzano : 苹果推出的图像理解和生成模型

AI工具2小时前发布 FuturX-Editor
6 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Manzano是苹果公司研发的新型多模态AI模型,旨在同时实现图像理解与生成功能。其核心设计理念是通过混合视觉分词器(Hybrid Vision Tokenizer)将图像转化为连续嵌入(用于理解)和离散标记(用于生成),并利用统一自回归语言模型(LLM)和扩散解码器完成跨模态任务。该模型尚未对外发布,但苹果通过预印本论文展示了其技术细节和性能数据,标志着苹果在生成式AI领域对OpenAI、谷歌等商业系统的追赶。

Manzano : 苹果推出的图像理解和生成模型

功能特点

  1. 双重能力融合
    Manzano是首个同时支持图像理解(如视觉问答、文档分析)和图像生成(如文本到图像、风格迁移)的统一模型,解决了传统模型“顾此失彼”的痛点。
  2. 混合视觉分词器
    采用共享视觉编码器生成两类标记:

    • 连续嵌入:以浮点数形式保留图像语义信息,用于理解任务。
    • 离散标记:通过量化将图像划分为固定类别,支持自回归生成。
      两类标记源自同一编码器,减少任务冲突。
  3. 模块化架构
    由三部分组成:

    • 混合分词器:处理图像输入,生成连续和离散表示。
    • 统一LLM解码器:预测文本和图像标记,支持多模态联合学习。
    • 扩散解码器:将离散图像标记渲染为高分辨率像素图像。
  4. 可扩展性
    提供三种参数规模的图像解码器(0.9亿、1.75亿、3.52亿参数),支持256至2048像素分辨率输出,性能随参数增加持续提升。

优缺点

优点

  • 性能卓越:在文本密集型任务(如文档分析、图表解读)中,30亿参数版本表现突出,与GPT-4o、Gemini 2.5 Flash等商业系统相当。
  • 任务冲突小:混合分词器设计显著缓解了理解与生成任务间的冲突,提升模型效率。
  • 模块化灵活:各组件可独立更新,支持不同研究领域的训练方法。

缺点

  • 未公开发布:目前仅通过论文展示技术细节,无实际演示或开源代码。
  • 依赖数据规模:训练需海量图文数据(23亿对图像-文本样本),数据获取成本较高。
  • 基础模型落后:苹果整体AI技术仍落后于行业领先者,需依赖外部模型(如计划在iOS 26中引入GPT-5)。

如何使用

  1. 输入提示:通过自然语言描述需求(如“生成一幅赛博朋克风格的城市夜景”)。
  2. 选择任务类型:指定理解(如“分析图表中的数据趋势”)或生成(如“根据描述创作图片”)。
  3. 调整参数:根据需求选择解码器分辨率(256-2048像素)或模型规模(0.9亿-30亿参数)。
  4. 输出结果:模型返回理解结论(如文本答案)或生成图像(如高分辨率图片)。

注:实际使用需等待苹果正式发布模型及配套工具。

框架技术原理

  1. 混合视觉分词器
    • 视觉编码器:采用Vision Transformer(ViT)将图像切块并编码为特征图。
    • 连续适配器:通过空间到通道(STC)层压缩特征图,再经MLP投影到LLM嵌入维度,生成连续嵌入。
    • 离散适配器:同样压缩特征图后,使用有限标量量化(FSQ)将特征转换为离散索引,再经MLP投影到LLM空间。
  2. 统一LLM解码器
    • 接收文本标记和/或连续图像嵌入,以自回归方式预测下一个标记(文本或图像)。
    • 使用标准交叉熵损失,兼容现有LLM训练流程。
  3. 扩散解码器
    • 基于DiT-Air架构,通过流匹配目标训练,将离散图像标记序列渲染为像素图像。
    • 支持渐进式分辨率增长(256→512→1024→2048像素),提升高分辨率生成质量。
  4. 三阶段训练流程
    • 预训练:使用23亿对图像-文本样本和10亿对文本-图像样本,覆盖纯文本、图文交错、图像到文本数据。
    • 继续预训练:加入2400万高质量能力导向数据(如多语言OCR、推理任务)。
    • 监督微调:理解数据占75%(含通用知识、文档图表),生成数据占25%,另加纯文本数据保持语言能力。

创新点

  1. 语义与渲染解耦
    将高层语义预测(LLM)与底层像素渲染(扩散解码器)分离,简化训练流程并支持独立扩展。
  2. 共享语义空间
    混合分词器确保连续和离散表示源自同一编码器,减少LLM处理时的冲突,提升任务兼容性。
  3. 统一自回归目标
    对纯文本、理解任务和生成任务使用单一损失函数,无需额外辅助损失或任务特定头结构。
  4. 渐进式分辨率训练
    扩散解码器从低分辨率(256像素)逐步微调至高分辨率(2048像素),高效生成高质量图像。

评估标准

  1. 理解任务指标
    • 通用VQA:SEEDBench、RealWorldQA、MMBench。
    • 知识与推理:AI2D、ScienceQA、MMMU、MathVista。
    • 富文本理解:ChartQA、TextVQA、DocVQA、InfoVQA、OCRBench。
  2. 生成任务指标
    • 自动化评估:GenEval(指令遵循)、DPG(指令遵循)、WISE(世界知识)。
    • 人工评估:在800个挑战性提示上,从结构完整性、指令遵循和审美质量三个维度打分。

应用领域

  1. 智能助手:结合文本和图像信息,提供多模态交互(如图文混合问答)。
  2. 内容创作:根据文本描述生成高质量图像,支持风格迁移、图像填充等。
  3. 教育:通过图像解释复杂科学概念,提供个性化学习建议。
  4. 医疗:分析患者影像资料和病历,辅助诊断。
  5. 金融:解读图表和数据,支持决策分析。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...