蚂蚁Ling-2.6-flash正式亮相:104B参数仅激活7.4B,Agent专用MoE模型

蚂蚁Ling-2.6-flash正式亮相:104B参数仅激活7.4B,Agent专用MoE模型


蚂蚁集团AGI团队出品,OpenRouter/Kilo限时免费。速度比Claude Sonnet 4.6快6倍,成本低约50倍,专为Agent场景原生设计。

核心亮点

蚂蚁集团AGI团队(@AntLingAGI)正式揭秘 Ling-2.6-flash,此前以 "Elephant Alpha" 代号在 OpenRouter 和 Kilo 上 stealth 发布,引发大量猜测。现在谜底揭晓——国产大厂马甲党赢了

架构:为效率而生

指标数据
总参数104B
激活参数7.4B(激活率仅 7%)
专家数量256 个,每次只叫醒一小撮
上下文262,144 tokens
发布时间2026-04-21

MoE + Linear Attention + Multi-Token Prediction 三件事一起上:

  • MoE:256 个专家里每次只激活 7.4B 参数,100 块的模型每次只烧 7 块钱的算力
  • Linear Attention:把传统 Transformer 的二次复杂度压下来
  • Multi-Token Prediction:推理阶段一次预测多个 token,进一步加速

FP8 单卡 341 tokens/s,Artificial Analysis 实测输出 215 tokens/s,与 gpt-oss-120B 并列第一梯队。

跑分:便宜≠凑合

Artificial Analysis 全量评测显示,Ling-2.6-flash 仅烧了约 15M tokens,Nemotron-3-Super 却烧了接近 10 倍。

基准测试分数说明
Intelligence Score26与 Gemini 2.5 Flash 同梯队
SWE-bench Verified62真实代码仓库定位 Bug + 生成补丁
BFCL-V467函数调用准确性
TAU2-Telecom93.86电信领域专业任务

全是硬场景,没有一个学术刷分榜单。Agentic 能力直接拉满。

产品定位:原厂 Agent 专用机

蚂蚁的产品线逻辑清晰:

  • Ling → 基础模型
  • Ring → 推理模型
  • Ming → 多模态

Ling-2.6-flash 从训练阶段就奔着 Agent 去的。别人做 Agent 是改装车,它是原厂出的 Agent 专用机

最佳使用场景:

  • Agent 持续跑、工具链串联
  • 代码补全随时触发
  • 长文档批量处理
  • 越高频越省钱

**不适合:**极端复杂的推理链、需要反复自我纠错的长思考任务——这种场景还是得上重型推理模型。

白嫖窗口

  • OpenRouter:inclusionai/ling-2.6-flash:free(限时免费)
  • Kilo:同期免费上线
  • Hugging Face:github.com/inclusionAI

后续规划:开源 → 商用版 LingDT → BF16/FP8/INT4 量化版。

2026 年看模型不能再盯着单一智能分了。当 Agent 从偶尔问一下变成 24 小时不间断跑的基础设施,每个 token 的有效产出就是新的胜负手。Ling-2.6-flash 是目前这个方向上跑得最激进、也交出实际成绩单的选手之一。


相关链接

1000举报0Xiao.Xi1天前
点击获取 ^_^
被收录:

暂无评论