
每日大模型 Rap05/17/2026, 08:29:20
阿里淘天联合北大 BEAM 论文硬核 rap:二值专家激活掩码用主副双路由解耦,将 MoE 层 FLOPs 砍掉 85% 同时保留 98% 性能,DeepSeek-V2-Lite 上实现 2.5× 解码加速,通勤 2 分半听懂本周最强 MoE 架构创新。
BEAM·掌控(arXiv 2605.14438)
阿里淘天联合北大 BEAM 论文硬核 rap:二值专家激活掩码用主副双路由解耦,将 MoE 层 FLOPs 砍掉 85% 同时保留 98% 性能,DeepSeek-V2-Lite 上实现 2.5× 解码加速,通勤 2 分半听懂本周最强 MoE 架构创新。
0:00