筛选：

Kimi 开源 K2.6：1万亿参数 MoE，长程编码与 Agent Swarm 能力行业领先

Moonshot AI 开源 Kimi K2.6，1万亿参数 MoE（激活32B），原生多模态。在 SWE-Bench Pro、长程编码、Agent Swarm 等关键指标上超越 Claude Opus 4.6 和 GPT-5.4。开源模型做到这个水平，闭源阵营的压力来了。

Kimi K2.6 开源发布：闭源的压力来了

Moonshot AI 正式开源 Kimi K2.6。这不仅是一次模型更新，更是开源生态对闭源阵营的一次直面挑战——K2.6 在多项核心编码、Agent 和多模态评测上已经超越或接近 Claude Opus 4.6 和 GPT-5.4，而它是完全开源的。

过去，顶级性能几乎是闭源商的专利。Kimi K2.6 的开源意味着：企业和开发者可以在自己的基础设施上部署一个超大杯水平的模型，无需被闭源 API 的价格、限速和数据隐私政策捆绑。

更关键的是，K2.6 不是“开源了但能力一般”——它是在多项关键指标上真正超越了当前顶尖闭源模型。

长程编码 (Long-Horizon Coding)

K2.6 在复杂端到端编码任务上显著提升，跨 Rust、Go、Python 等语言，覆盖前端、DevOps、性能优化等场景。在内部 Kimi Code Bench 上，K2.6 得分 68.2，较前代 K2.5（57.4）大幅提升。

实际案例：

在 Mac 上本地部署 Qwen3.5-0.8B，用 Zig 语言实现并优化推理，经 4,000+ 次 tool call、12 小时持续执行、14 轮迭代，吞吐从 ~15 提升至 ~193 tokens/sec，比 LM Studio 快约 20%
自主重构 8 年历史的开源金融攒合引擎 exchange-core，13 小时执行、1,000+ tool call、修改 4,000+ 行代码，中等吞吐提升 185%，性能吞吐提升 133%

编码驱动设计 (Coding-Driven Design)

将简单提示和视觉输入转化为生产级界面和轻量全栈工作流。在 Kimi Design Bench 上，47.5% 的评测者认为 K2.6 输出优于 Gemini 2.5 Pro。

Agent Swarm

水平扩展至 300 个子智能体，同时执行 4,000+ 协调步骤，动态将任务分解为并行、领域专精的子任务，单次自主运行即可完成从文档到网站到表格的端到端输出。

主动式自主编排 (Proactive & Open Orchestration)

支持 7×24 小时后台自主代理，主动管理日程、执行代码、编排跨平台操作，无需人工监督。

评测项	Kimi K2.6	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro	K2.5
HLE-Full w/ tools	54.0	52.1	53.0	51.4	50.2
BrowseComp	83.2	82.7	83.7	85.9	74.9
DeepSearchQA (f1)	92.5	78.6	91.3	81.9	89.0
Toolathlon	50.0	54.6	47.2	48.8	27.8
Terminal-Bench 2.0	66.7	65.4*	65.4	68.5	50.8
SWE-Bench Pro	58.6	57.7	53.4	54.2	50.7
SWE-Bench Multilingual	76.7	—	77.8	76.9*	73.0
SWE-Bench Verified	80.2	—	80.8	80.6	76.8

Modified MIT 开源协议

10200举报0

Xiao.Xi•2个月前

被收录：

暂无评论