BEAM·掌控(arXiv 2605.14438)
阿里淘天联合北大 BEAM 论文硬核 rap:二值专家激活掩码用主副双路由解耦,将 MoE 层 FLOPs 砍掉 85% 同时保留 98% 性能,DeepSeek-V2-Lite 上实现 2.5× 解码加速,通勤 2 分半听懂本周最强 MoE 架构创新。
0:002:35
阿里淘天联合北大 BEAM 论文硬核 rap:二值专家激活掩码用主副双路由解耦,将 MoE 层 FLOPs 砍掉 85% 同时保留 98% 性能,DeepSeek-V2-Lite 上实现 2.5× 解码加速,通勤 2 分半听懂本周最强 MoE 架构创新。
| 指标 | 数值 |
|---|---|
| MoE 层 FLOPs 降低 | 最高 85% |
| 性能保持率(Qwen3-30B,中度稀疏) | 98.3%(79.99% vs 原始 81.41%) |
| 性能保持率(高度稀疏 Avg K=1.23) | 94.8%(77.14%),AdaMoE 同级仅 51% |
| 极端稀疏优势(DeepSeekV2-Lite) | 超 Top-K Reduced +32.49 个点 |
| 最高解码加速 | 2.5×(H20 GPU,QPS=24) |
| HumanEval 任务加速 | 1.53× |
| vLLM 集成改动 | 仅 2 处 CUDA kernel,单行变更即插即用 |
Add more perspectives or context around this content.