💬 观点Hugging FaceLLM 自动摘要 · deepseek-v3-2-251201待验证
Introducing Mellum2: A 12B Mixture-of-Experts Model by — JetBrains 发布 Mellum2,一个 12B 参数的专家混合模型,展示
JetBrains 发布 Mellum2,一个 12B 参数的专家混合模型,展示了开源 AI 在代码生成领域的持续创新。
2026-06-01原文
本条为 LLM 自动摘要(model:
deepseek-v3-2-251201)。 细节以原文为准。发现错误请在 GitHub 提 issue。JetBrains 推出了 Mellum2,这是一个拥有 120 亿参数的专家混合模型,专门为代码生成和补全任务而设计。
- 架构创新:模型采用了专家混合架构,在推理时仅激活部分参数,实现了效率与性能的平衡。这意味着开发者可以部署一个能力强大的模型,同时保持相对较低的推理成本。
- 训练数据:它基于大量高质量的代码数据进行训练,特别擅长理解编程上下文和模式。这对于构建更智能的代码助手和 IDE 插件至关重要,能直接提升开发者的生产力。
- 开源与可访问性:模型通过 Hugging Face 平台开源发布,方便研究者和开发者直接获取、评估并集成到自己的工具链中。这降低了在专业领域应用前沿大模型的门槛,促进了生态创新。
原文:Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains · 作者 Hugging Face