Kimi 开源 K2.6:1万亿参数 MoE,长程编码与 Agent Swarm 能力行业领先

Kimi 开源 K2.6:1万亿参数 MoE,长程编码与 Agent Swarm 能力行业领先


Moonshot AI 开源 Kimi K2.6,1万亿参数 MoE(激活32B),原生多模态。在 SWE-Bench Pro、长程编码、Agent Swarm 等关键指标上超越 Claude Opus 4.6 和 GPT-5.4。开源模型做到这个水平,闭源阵营的压力来了。

Kimi K2.6 开源发布:闭源的压力来了

Moonshot AI 正式开源 Kimi K2.6。这不仅是一次模型更新,更是开源生态对闭源阵营的一次直面挑战——K2.6 在多项核心编码、Agent 和多模态评测上已经超越或接近 Claude Opus 4.6 和 GPT-5.4,而它是完全开源的。


模型架构

  • 架构: Mixture-of-Experts (MoE)
  • 总参数量: 1T
  • 激活参数量: 32B
  • 层数: 61(含 1 层 Dense)
  • 注意力头: 64
  • 专家数: 384(每 token 选 8 个 + 1 共享专家)
  • 词表大小: 160K
  • 上下文长度: 256K
  • 注意力机制: MLA
  • 视觉编码器: MoonViT

为什么这次开源很重要

过去,顶级性能几乎是闭源商的专利。Kimi K2.6 的开源意味着:企业和开发者可以在自己的基础设施上部署一个超大杯水平的模型,无需被闭源 API 的价格、限速和数据隐私政策捆绑。

更关键的是,K2.6 不是“开源了但能力一般”——它是在多项关键指标上真正超越了当前顶尖闭源模型。


核心能力

长程编码 (Long-Horizon Coding)

K2.6 在复杂端到端编码任务上显著提升,跨 Rust、Go、Python 等语言,覆盖前端、DevOps、性能优化等场景。在内部 Kimi Code Bench 上,K2.6 得分 68.2,较前代 K2.5(57.4)大幅提升。

实际案例:

  • 在 Mac 上本地部署 Qwen3.5-0.8B,用 Zig 语言实现并优化推理,经 4,000+ 次 tool call、12 小时持续执行、14 轮迭代,吞吐从 ~15 提升至 ~193 tokens/sec,比 LM Studio 快约 20%
  • 自主重构 8 年历史的开源金融攒合引擎 exchange-core,13 小时执行、1,000+ tool call、修改 4,000+ 行代码,中等吞吐提升 185%,性能吞吐提升 133%

编码驱动设计 (Coding-Driven Design)

将简单提示和视觉输入转化为生产级界面和轻量全栈工作流。在 Kimi Design Bench 上,47.5% 的评测者认为 K2.6 输出优于 Gemini 2.5 Pro。

Agent Swarm

水平扩展至 300 个子智能体,同时执行 4,000+ 协调步骤,动态将任务分解为并行、领域专精的子任务,单次自主运行即可完成从文档到网站到表格的端到端输出。

主动式自主编排 (Proactive & Open Orchestration)

支持 7×24 小时后台自主代理,主动管理日程、执行代码、编排跨平台操作,无需人工监督。


Benchmark 对比

评测项Kimi K2.6GPT-5.4Claude Opus 4.6Gemini 3.1 ProK2.5
HLE-Full w/ tools54.052.153.051.450.2
BrowseComp83.282.783.785.974.9
DeepSearchQA (f1)92.578.691.381.989.0
Toolathlon50.054.647.248.827.8
Terminal-Bench 2.066.765.4*65.468.550.8
SWE-Bench Pro58.657.753.454.250.7
SWE-Bench Multilingual76.777.876.9*73.0
SWE-Bench Verified80.280.880.676.8

企业评价

  • Vercel: “Next.js benchmark 提升 50%+,在 agentic coding 和前端生成方面极具性价比”
  • Augment Code: “在大型代码库中的手术级精准度令人印象深刻,智能转向能力帮助企业减少浪费周期”
  • Fireworks.ai: “长程可靠性和指令遵循能力的可衡量飞跃,是自主代理管道的稳定基础”
  • OpenCode: “任务分解和工具调用既稳定又一致,有效减少重复开销”
  • Kilo.ai: “SOTA 级性能,成本却只是零头”
  • CodeBuddy: “代码生成准确率提升 12%,长上下文稳定性提升 18%,工具调用成功率达 96.60%”

获取方式

Modified MIT 开源协议

1700举报0Xiao.Xi4天前
点击获取 ^_^
被收录:

暂无评论