Mellum2 ： JetBrains 开源的混合专家模型

260 0 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

主要介绍

Mellum2 是 JetBrains 于 2026 年 6 月 1 日正式开源的新一代机器学习模型，专为软件工程系统设计。作为前代 Mellum（4B 参数代码补全模型）的全面升级，Mellum2 总参数量达到 12B，采用稀疏 Mixture-of-Experts（混合专家）架构，每 token 仅激活约 2.5B 参数，在保持高吞吐、低延迟的同时，推理成本接近 2.5B 密集模型。上下文窗口从原版的 8K Token 扩展至 128K（约 131072 Token），能力也从单一的代码补全扩展为覆盖代码生成、智能路由、工具调用、子 Agent 协作及私有化部署的完整编码助手。JetBrains 将其定位为”focal model”（焦点模型）——快且专精，而非与 GPT-4 等通用大模型正面竞争，而是聚焦”高频、低延迟、本地优先”的 AI 编程助手赛道。模型以 Apache 2.0 协议完全开源，支持自由商用。 Mellum2 ： JetBrains 开源的混合专家模型

功能特点

能力	说明
智能代码生成	支持代码补全、函数生成与重构建议，覆盖 Java、Kotlin、Python、Go、Rust、C++、JavaScript 等 15+ 语言
双模式推理	提供 Thinking（深度思考）与 Non-thinking（快速响应）两种模式，按需切换，无需部署两套模型
工作流路由与摘要	充当 AI 工作流的智能路由器，负责任务分发、文档摘要与中间推理
工具调用与 Agent 协作	支持子 Agent 调用和工具链集成（Function Calling），可嵌入复杂自动化流程
长上下文处理	128K 上下文窗口，支持跨文件、跨会话的长对话与复杂代码逻辑推导
本地私有部署	可在企业内网或本地设备独立运行，完全离线，无需依赖外部 API
内置投机解码	多 Token 预测头同时充当 Draft 模型，无需额外组件即可实现推测解码加速

优缺点

优点：

MoE 高效架构：12B 总参数仅激活 2.5B，推理成本极低，推理速度比同级模型快 2 倍以上
垂直领域专精：放弃多模态，专注代码与自然语言，在软件工程场景下更精准、更轻量
完全开源可商用：Apache 2.0 协议，可自由实验、微调及大规模商用部署
企业隐私友好：支持完全本地化运行，满足代码安全与数据合规要求
三版本灵活选择：Base（基础版）、Instruct（指令版）、Thinking（思考版）满足不同场景需求

缺点：

多模态能力缺失：不支持图像、视频等模态，适用范围限于文本和代码
数学推理偏弱：AIME 数学推理得分 58.4，明显低于 Qwen3.5-9B 的 73.4，通用数学能力不是强项
上下文扩展有损：YaRN 扩展仅对关键层进行位置编码插值，全层微调带来的性能损失无法完全避免
生态尚在早期：相比 Qwen、DeepSeek 等成熟生态，社区工具链和微调案例仍在积累中

如何使用

直接在 JetBrains IDE 中使用：升级 JetBrains AI Assistant 至最新版本，Mellum2 已作为默认后端模型集成在 IntelliJ IDEA、PyCharm、WebStorm 等 IDE 中，开启后即可享受实时代码补全和对话式编程助手功能（本地模式无需联网）。
通过 Hugging Face 在线体验：访问 Hugging Face 模型页面，使用免费的 Inference API 或 Space Demo 直接与模型对话，无需任何配置。
使用 Ollama 本地运行：下载 Ollama 工具后，在终端执行一条命令即可拉取并运行 Mellum2，支持本地对话和 API 调用。
使用 LM Studio 图形化界面：在 LM Studio 中搜索”Mellum2″，下载后通过图形界面直接聊天，适合不熟悉命令行的用户。
Docker 一键部署：使用官方提供的 Docker 镜像，一条命令启动兼容 OpenAI 格式 API 的服务，可接入任何支持 OpenAI 协议的客户端工具。

框架技术原理

技术模块	实现细节
MoE 稀疏架构	64 个专家，每 token 激活 8 个专家，总参数 12B，活跃参数仅 2.5B，推理成本接近 2.5B 密集模型
注意力优化	Grouped-Query Attention（GQA）+ 滑动窗口注意力，显著压缩显存占用并加速解码
多 Token 预测	Multi-Token Prediction 头作为辅助预训练目标，同时充当投机解码的内置 Draft 模型，进一步降低延迟
长上下文扩展	Layer-Selective YaRN，仅对关键层进行位置编码插值至 128K，避免全层微调性能损失
训练策略	三阶段课程预训练（约 10.6 万亿 Token）：通用网页 → 精选代码 → 数学/代码专项，渐进式过渡
优化器	Muon 优化器 + FP8 混合精度 + Warmup-Hold-Decay 学习率调度（线性衰减至零）

创新点

“Focal Model”产品定位：JetBrains 明确提出”未来属于协同系统而非单一模型”，Mellum2 不是要替代 GPT-4，而是作为 AI 工作流中的专用组件——路由、编排、RAG 管线、子 Agent——填补”大模型太重、小模型太弱”的中间空白。
双模式推理内置：同一模型原生支持 Thinking/Non-thinking 切换，无需训练两个模型，开发者可在速度与质量之间实时取舍。
投机解码内置化：多 Token 预测头同时充当 Draft 模型，无需额外组件即可实现推测解码加速
明确的产品定位：不与 GPT-4 等通用大模型正面竞争，而是聚焦”高频、低延迟、本地优先”的 IDE 助手赛道

评估标准

评测基准	Mellum2 (Thinking)	对比参考
LiveCodeBench v6（代码）	69.9	Qwen3.5-9B: 68.3 / SeedCoder-8B: 28.1
BFCL V4（工具调用）	45.6	Qwen3.5-9B: 42.7 / SeedCoder-8B: N/A
AIME（数学推理）	58.4	Qwen3.5-9B: 73.4
上下文长度	128K (YaRN)	Qwen3.5-9B: 128K+ / SeedCoder-8B: 4K-8K

应用领域

IDE 智能补全：在 JetBrains IDE 中提供实时代码建议、函数生成与重构
AI 编程助手：对话式编程，用自然语言解答技术问题、解释代码逻辑
调试与错误诊断：辅助定位 Bug、分析堆栈信息、生成修复方案
Agent 工作流编排：作为 AI 工作负载路由器，协调多个 AI 工具与子 Agent
低延迟 RAG 管线：构建检索增强生成系统，处理企业内部知识库问答
企业私有部署：金融、医疗、军工等对代码安全合规要求极高的行业
自动化 DevOps：通过工具调用连接 CI/CD 流程，实现自动化构建、测试与部署

项目地址

Hugging Face：https://huggingface.co/JetBrains/mellum2
官方发布博文：https://huggingface.co/blog/JetBrains/mellum2-launch

# AI工具

文章版权归作者所有，未经允许请勿转载。

SWEET-RL：Meta推出的多轮强化学习框架

FuturX-Editor

690 0

Paper2Poster：加拿大滑铁卢大学、新加坡国立大学、牛津大学等机构推出的学术海报生成框架

FuturX-Editor

1,004 0

ACE-Ego : 大晓机器人联合港中文开源的具身操作 VLA 模型

FuturX-Editor

120 0

Kimi Linear ：月之暗面开源的新型混合线性注意力架构

FuturX-Editor

642 0

Qwen3.6-35B-A3B : 阿里通义开源的混合专家 MoE 模型

FuturX-Editor

311 0

TrackVLA：银河通用推出的纯视觉端到端导航大模型

FuturX-Editor

849 0

暂无评论

暂无评论...

Mellum2 ： JetBrains 开源的混合专家模型

主要介绍

功能特点

优缺点

如何使用

框架技术原理

创新点

评估标准

应用领域

项目地址

Cosmos 3 ：英伟达开源的全模态物理 AI 基础大模型

Polar ：英伟达开源的智能体强化学习训练框架

相关文章

暂无评论

相关文章

Mellum2 ： JetBrains 开源的混合专家模型

主要介绍

功能特点

优缺点

如何使用

框架技术原理

创新点

评估标准

应用领域

项目地址

Cosmos 3 ： 英伟达开源的全模态物理 AI 基础大模型

Polar ： 英伟达开源的智能体强化学习训练框架

相关文章

暂无评论

相关文章

Cosmos 3 ：英伟达开源的全模态物理 AI 基础大模型

Polar ：英伟达开源的智能体强化学习训练框架