
Kimi 开源 K2.6:1万亿参数 MoE,长程编码与 Agent Swarm 能力行业领先
Moonshot AI 开源 Kimi K2.6,1万亿参数 MoE(激活32B),原生多模态。在 SWE-Bench Pro、长程编码、Agent Swarm 等关键指标上超越 Claude Opus 4.6 和 GPT-5.4。开源模型做到这个水平,闭源阵营的压力来了。
Kimi K2.6 开源发布:闭源的压力来了
Moonshot AI 正式开源 Kimi K2.6。这不仅是一次模型更新,更是开源生态对闭源阵营的一次直面挑战——K2.6 在多项核心编码、Agent 和多模态评测上已经超越或接近 Claude Opus 4.6 和 GPT-5.4,而它是完全开源的。
模型架构
- 架构: Mixture-of-Experts (MoE)
- 总参数量: 1T
- 激活参数量: 32B
- 层数: 61(含 1 层 Dense)
- 注意力头: 64
- 专家数: 384(每 token 选 8 个 + 1 共享专家)
- 词表大小: 160K
- 上下文长度: 256K
- 注意力机制: MLA
- 视觉编码器: MoonViT
为什么这次开源很重要
过去,顶级性能几乎是闭源商的专利。Kimi K2.6 的开源意味着:企业和开发者可以在自己的基础设施上部署一个超大杯水平的模型,无需被闭源 API 的价格、限速和数据隐私政策捆绑。
更关键的是,K2.6 不是“开源了但能力一般”——它是在多项关键指标上真正超越了当前顶尖闭源模型。
核心能力
长程编码 (Long-Horizon Coding)
K2.6 在复杂端到端编码任务上显著提升,跨 Rust、Go、Python 等语言,覆盖前端、DevOps、性能优化等场景。在内部 Kimi Code Bench 上,K2.6 得分 68.2,较前代 K2.5(57.4)大幅提升。
实际案例:
- 在 Mac 上本地部署 Qwen3.5-0.8B,用 Zig 语言实现并优化推理,经 4,000+ 次 tool call、12 小时持续执行、14 轮迭代,吞吐从 ~15 提升至 ~193 tokens/sec,比 LM Studio 快约 20%
- 自主重构 8 年历史的开源金融攒合引擎 exchange-core,13 小时执行、1,000+ tool call、修改 4,000+ 行代码,中等吞吐提升 185%,性能吞吐提升 133%
编码驱动设计 (Coding-Driven Design)
将简单提示和视觉输入转化为生产级界面和轻量全栈工作流。在 Kimi Design Bench 上,47.5% 的评测者认为 K2.6 输出优于 Gemini 2.5 Pro。
Agent Swarm
水平扩展至 300 个子智能体,同时执行 4,000+ 协调步骤,动态将任务分解为并行、领域专精的子任务,单次自主运行即可完成从文档到网站到表格的端到端输出。
主动式自主编排 (Proactive & Open Orchestration)
支持 7×24 小时后台自主代理,主动管理日程、执行代码、编排跨平台操作,无需人工监督。
Benchmark 对比
| 评测项 | Kimi K2.6 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | K2.5 |
|---|---|---|---|---|---|
| HLE-Full w/ tools | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| DeepSearchQA (f1) | 92.5 | 78.6 | 91.3 | 81.9 | 89.0 |
| Toolathlon | 50.0 | 54.6 | 47.2 | 48.8 | 27.8 |
| Terminal-Bench 2.0 | 66.7 | 65.4* | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
| SWE-Bench Multilingual | 76.7 | — | 77.8 | 76.9* | 73.0 |
| SWE-Bench Verified | 80.2 | — | 80.8 | 80.6 | 76.8 |
企业评价
- Vercel: “Next.js benchmark 提升 50%+,在 agentic coding 和前端生成方面极具性价比”
- Augment Code: “在大型代码库中的手术级精准度令人印象深刻,智能转向能力帮助企业减少浪费周期”
- Fireworks.ai: “长程可靠性和指令遵循能力的可衡量飞跃,是自主代理管道的稳定基础”
- OpenCode: “任务分解和工具调用既稳定又一致,有效减少重复开销”
- Kilo.ai: “SOTA 级性能,成本却只是零头”
- CodeBuddy: “代码生成准确率提升 12%,长上下文稳定性提升 18%,工具调用成功率达 96.60%”
获取方式
- 官网: kimi.com
- API: platform.kimi.ai
- Kimi Code: kimi.com/code
- Hugging Face: moonshotai/Kimi-K2.6
- 技术博客: kimi.com/blog/kimi-k2-6
Modified MIT 开源协议
暂无评论
