Qwen3.6-35B-A3B : 阿里通义开源的混合专家 MoE 模型

AI工具2小时前发布 FuturX-Editor
5 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Qwen3.6-35B-A3B 是阿里通义实验室于 2026 年 4 月 16 日开源的稀疏混合专家(MoE)大模型,总参数量为 350 亿,每次推理仅激活约 30 亿参数。该模型以轻量高效为核心,主打智能体编程与多模态感知能力,支持多模态思考与非思考模式,旨在降低算力消耗的同时提升智能输出性能。其开源进一步推动了国产大模型在 MoE 架构、轻量设计与生态协同方面的技术突破。Qwen3.6-35B-A3B : 阿里通义开源的混合专家 MoE 模型 Qwen3.6-35B-A3B : 阿里通义开源的混合专家 MoE 模型

功能特点

  • 智能体编程能力:深度优化代码生成、任务拆解与工具调用能力,可快速理解自然语言需求并输出完整应用代码。
  • 多模态原生支持:原生支持图像、文档等多种输入,具备强大的空间理解和推理能力。
  • 双模式推理
    • 思考模式:适合复杂推理任务,模型会展示完整的思维链。
    • 非思考模式:适合日常问答和快速响应,输出更直接。
  • 超长上下文:原生支持 262,144 tokens,可扩展至约 1,010,000 tokens。
  • 高效推理:在保证性能的同时,显著降低显存占用和推理成本。

优缺点

  • 优点
    • 轻量高效:仅用约 30 亿的激活参数,就在多项关键指标上追平甚至超越了参数量更大的模型。
    • 智能体编程能力突出:在多个权威编程基准测试中表现亮眼,可与体量更大的稠密模型一较高下。
    • 多模态能力强:在视觉问答、空间智能、视频理解等基准测试中取得优异成绩。
  • 缺点
    • 模型复杂度:MoE 架构虽然高效,但模型复杂度较高,对部署环境有一定要求。
    • 生态适配:尽管已适配多种编程助手和平台,但生态的全面性仍需进一步拓展。

如何使用

  • 本地部署
    • 从 Hugging Face 或 ModelScope 下载模型权重。
    • 使用 SGLang 或 vLLM 等高性能推理框架进行部署。
  • API 调用
    • 通过阿里云百炼平台,以“qwen3.6-flash”的名称调用模型 API。
    • 构造请求时,建议设置“preserve_thinking”: true 以保留思维链,对智能体任务效果更佳。
  • 在线体验
    • 访问 Qwen Studio,直接与模型对话,体验多模态问答和编程能力。
  • 集成到编程助手
    • 适配 OpenClaw、Qwen Code、Claude Code 等主流编程助手,支持 Anthropic API 协议接入。

框架技术原理

  • 稀疏混合专家(MoE)架构
    • 总参数量为 350 亿,每次推理仅激活约 30 亿参数。
    • 模型包含多个专家网络(Experts)和路由机制(Router),路由器根据输入选择前 k 个专家进行处理。
  • 动态专家激活
    • 默认每个 token 处理时激活的专家数为 8,总专家池规模扩展至 128 个。
    • 模型处理复杂任务时可调用更多专家资源,简单任务则降低计算开销。
  • 负载均衡优化
    • 采用改进的负载均衡损失函数,惩罚专家负载不均现象,确保各专家模块均衡利用,提升训练稳定性。

创新点

  • 轻量高效设计:通过稀疏 MoE 架构,实现以更低的算力消耗完成更高性能的智能输出。
  • 智能体编程与多模态感知:深度优化代码生成和任务拆解能力,同时原生支持多模态输入和推理。
  • 双模式推理:引入思考与非思考模式,满足不同场景下的需求。
  • 生态协同:实现与多种编程助手和平台的兼容适配,支持 Anthropic API 协议接入。

评估标准

  • 编程能力:在 Terminal-Bench2.0、NL2Repo、QwenClawBench 等权威编程基准测试中表现优异。
  • 多模态能力:在 MMBench、RealWorldQA、SimpleVQA 等视觉语言基准测试中取得优异成绩。
  • 空间智能:在 RefCOCO、ODInW13 等基准测试中分别取得 92.0 和 50.8 的高分。
  • 推理效率:在保证性能的同时,显著降低显存占用和推理成本。

应用领域

  • 智能编程:辅助开发者进行代码生成、任务拆解和工具调用。
  • 多模态交互:支持图文理解、数字内容生成等应用。
  • 智能体开发:为各类智能体提供“智能大脑”,完成更长程、更复杂的任务。
  • 科研教育:为研究人员和学生提供强大的 AI 工具,支持多模态研究和教学。

项目地址

© 版权声明

相关文章

暂无评论

暂无评论...