Mellum2 : JetBrains 开源的混合专家模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
Mellum2 是 JetBrains 于 2026 年 6 月 1 日正式开源的新一代机器学习模型,专为软件工程系统设计。作为前代 Mellum(4B 参数代码补全模型)的全面升级,Mellum2 总参数量达到 12B,采用稀疏 Mixture-of-Experts(混合专家)架构,每 token 仅激活约 2.5B 参数,在保持高吞吐、低延迟的同时,推理成本接近 2.5B 密集模型。上下文窗口从原版的 8K Token 扩展至 128K(约 131072 Token),能力也从单一的代码补全扩展为覆盖代码生成、智能路由、工具调用、子 Agent 协作及私有化部署的完整编码助手。JetBrains 将其定位为”focal model”(焦点模型)——快且专精,而非与 GPT-4 等通用大模型正面竞争,而是聚焦”高频、低延迟、本地优先”的 AI 编程助手赛道。模型以 Apache 2.0 协议完全开源,支持自由商用。
功能特点
| 能力 | 说明 |
|---|---|
| 智能代码生成 | 支持代码补全、函数生成与重构建议,覆盖 Java、Kotlin、Python、Go、Rust、C++、JavaScript 等 15+ 语言 |
| 双模式推理 | 提供 Thinking(深度思考)与 Non-thinking(快速响应)两种模式,按需切换,无需部署两套模型 |
| 工作流路由与摘要 | 充当 AI 工作流的智能路由器,负责任务分发、文档摘要与中间推理 |
| 工具调用与 Agent 协作 | 支持子 Agent 调用和工具链集成(Function Calling),可嵌入复杂自动化流程 |
| 长上下文处理 | 128K 上下文窗口,支持跨文件、跨会话的长对话与复杂代码逻辑推导 |
| 本地私有部署 | 可在企业内网或本地设备独立运行,完全离线,无需依赖外部 API |
| 内置投机解码 | 多 Token 预测头同时充当 Draft 模型,无需额外组件即可实现推测解码加速 |
优缺点
优点:
- MoE 高效架构:12B 总参数仅激活 2.5B,推理成本极低,推理速度比同级模型快 2 倍以上
- 垂直领域专精:放弃多模态,专注代码与自然语言,在软件工程场景下更精准、更轻量
- 完全开源可商用:Apache 2.0 协议,可自由实验、微调及大规模商用部署
- 企业隐私友好:支持完全本地化运行,满足代码安全与数据合规要求
- 三版本灵活选择:Base(基础版)、Instruct(指令版)、Thinking(思考版)满足不同场景需求
缺点:
- 多模态能力缺失:不支持图像、视频等模态,适用范围限于文本和代码
- 数学推理偏弱:AIME 数学推理得分 58.4,明显低于 Qwen3.5-9B 的 73.4,通用数学能力不是强项
- 上下文扩展有损:YaRN 扩展仅对关键层进行位置编码插值,全层微调带来的性能损失无法完全避免
- 生态尚在早期:相比 Qwen、DeepSeek 等成熟生态,社区工具链和微调案例仍在积累中
如何使用
- 直接在 JetBrains IDE 中使用:升级 JetBrains AI Assistant 至最新版本,Mellum2 已作为默认后端模型集成在 IntelliJ IDEA、PyCharm、WebStorm 等 IDE 中,开启后即可享受实时代码补全和对话式编程助手功能(本地模式无需联网)。
- 通过 Hugging Face 在线体验:访问 Hugging Face 模型页面,使用免费的 Inference API 或 Space Demo 直接与模型对话,无需任何配置。
- 使用 Ollama 本地运行:下载 Ollama 工具后,在终端执行一条命令即可拉取并运行 Mellum2,支持本地对话和 API 调用。
- 使用 LM Studio 图形化界面:在 LM Studio 中搜索”Mellum2″,下载后通过图形界面直接聊天,适合不熟悉命令行的用户。
- Docker 一键部署:使用官方提供的 Docker 镜像,一条命令启动兼容 OpenAI 格式 API 的服务,可接入任何支持 OpenAI 协议的客户端工具。
框架技术原理
| 技术模块 | 实现细节 |
|---|---|
| MoE 稀疏架构 | 64 个专家,每 token 激活 8 个专家,总参数 12B,活跃参数仅 2.5B,推理成本接近 2.5B 密集模型 |
| 注意力优化 | Grouped-Query Attention(GQA)+ 滑动窗口注意力,显著压缩显存占用并加速解码 |
| 多 Token 预测 | Multi-Token Prediction 头作为辅助预训练目标,同时充当投机解码的内置 Draft 模型,进一步降低延迟 |
| 长上下文扩展 | Layer-Selective YaRN,仅对关键层进行位置编码插值至 128K,避免全层微调性能损失 |
| 训练策略 | 三阶段课程预训练(约 10.6 万亿 Token):通用网页 → 精选代码 → 数学/代码专项,渐进式过渡 |
| 优化器 | Muon 优化器 + FP8 混合精度 + Warmup-Hold-Decay 学习率调度(线性衰减至零) |
创新点
- “Focal Model”产品定位:JetBrains 明确提出”未来属于协同系统而非单一模型”,Mellum2 不是要替代 GPT-4,而是作为 AI 工作流中的专用组件——路由、编排、RAG 管线、子 Agent——填补”大模型太重、小模型太弱”的中间空白。
- 双模式推理内置:同一模型原生支持 Thinking/Non-thinking 切换,无需训练两个模型,开发者可在速度与质量之间实时取舍。
- 投机解码内置化:多 Token 预测头同时充当 Draft 模型,无需额外组件即可实现推测解码加速
- 明确的产品定位:不与 GPT-4 等通用大模型正面竞争,而是聚焦”高频、低延迟、本地优先”的 IDE 助手赛道
评估标准
| 评测基准 | Mellum2 (Thinking) | 对比参考 |
|---|---|---|
| LiveCodeBench v6(代码) | 69.9 | Qwen3.5-9B: 68.3 / SeedCoder-8B: 28.1 |
| BFCL V4(工具调用) | 45.6 | Qwen3.5-9B: 42.7 / SeedCoder-8B: N/A |
| AIME(数学推理) | 58.4 | Qwen3.5-9B: 73.4 |
| 上下文长度 | 128K (YaRN) | Qwen3.5-9B: 128K+ / SeedCoder-8B: 4K-8K |
应用领域
- IDE 智能补全:在 JetBrains IDE 中提供实时代码建议、函数生成与重构
- AI 编程助手:对话式编程,用自然语言解答技术问题、解释代码逻辑
- 调试与错误诊断:辅助定位 Bug、分析堆栈信息、生成修复方案
- Agent 工作流编排:作为 AI 工作负载路由器,协调多个 AI 工具与子 Agent
- 低延迟 RAG 管线:构建检索增强生成系统,处理企业内部知识库问答
- 企业私有部署:金融、医疗、军工等对代码安全合规要求极高的行业
- 自动化 DevOps:通过工具调用连接 CI/CD 流程,实现自动化构建、测试与部署
项目地址
- Hugging Face:https://huggingface.co/JetBrains/mellum2
- 官方发布博文:https://huggingface.co/blog/JetBrains/mellum2-launch
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...