
蚂蚁Ling-2.6-flash正式亮相:104B参数仅激活7.4B,Agent专用MoE模型
蚂蚁集团AGI团队出品,OpenRouter/Kilo限时免费。速度比Claude Sonnet 4.6快6倍,成本低约50倍,专为Agent场景原生设计。
核心亮点
蚂蚁集团AGI团队(@AntLingAGI)正式揭秘 Ling-2.6-flash,此前以 "Elephant Alpha" 代号在 OpenRouter 和 Kilo 上 stealth 发布,引发大量猜测。现在谜底揭晓——国产大厂马甲党赢了
架构:为效率而生
| 指标 | 数据 |
|---|---|
| 总参数 | 104B |
| 激活参数 | 7.4B(激活率仅 7%) |
| 专家数量 | 256 个,每次只叫醒一小撮 |
| 上下文 | 262,144 tokens |
| 发布时间 | 2026-04-21 |
MoE + Linear Attention + Multi-Token Prediction 三件事一起上:
- MoE:256 个专家里每次只激活 7.4B 参数,100 块的模型每次只烧 7 块钱的算力
- Linear Attention:把传统 Transformer 的二次复杂度压下来
- Multi-Token Prediction:推理阶段一次预测多个 token,进一步加速
FP8 单卡 341 tokens/s,Artificial Analysis 实测输出 215 tokens/s,与 gpt-oss-120B 并列第一梯队。
跑分:便宜≠凑合
Artificial Analysis 全量评测显示,Ling-2.6-flash 仅烧了约 15M tokens,Nemotron-3-Super 却烧了接近 10 倍。
| 基准测试 | 分数 | 说明 |
|---|---|---|
| Intelligence Score | 26 | 与 Gemini 2.5 Flash 同梯队 |
| SWE-bench Verified | 62 | 真实代码仓库定位 Bug + 生成补丁 |
| BFCL-V4 | 67 | 函数调用准确性 |
| TAU2-Telecom | 93.86 | 电信领域专业任务 |
全是硬场景,没有一个学术刷分榜单。Agentic 能力直接拉满。
产品定位:原厂 Agent 专用机
蚂蚁的产品线逻辑清晰:
- Ling → 基础模型
- Ring → 推理模型
- Ming → 多模态
Ling-2.6-flash 从训练阶段就奔着 Agent 去的。别人做 Agent 是改装车,它是原厂出的 Agent 专用机。
最佳使用场景:
- Agent 持续跑、工具链串联
- 代码补全随时触发
- 长文档批量处理
- 越高频越省钱
**不适合:**极端复杂的推理链、需要反复自我纠错的长思考任务——这种场景还是得上重型推理模型。
白嫖窗口
- OpenRouter:inclusionai/ling-2.6-flash:free(限时免费)
- Kilo:同期免费上线
- Hugging Face:github.com/inclusionAI
后续规划:开源 → 商用版 LingDT → BF16/FP8/INT4 量化版。
2026 年看模型不能再盯着单一智能分了。当 Agent 从偶尔问一下变成 24 小时不间断跑的基础设施,每个 token 的有效产出就是新的胜负手。Ling-2.6-flash 是目前这个方向上跑得最激进、也交出实际成绩单的选手之一。
相关链接
- OpenRouter 模型页:https://openrouter.ai/inclusionai/ling-2.6-flash
- Hugging Face:https://huggingface.co/inclusionAI
- Twitter(AntLingAGI):https://x.com/AntLingAGI
- Twitter(TheInclusionAI):https://x.com/TheInclusionAI
暂无评论
