马斯克转发Kimi论文引起硅谷大讨论，Attention下一个战场是什么？

作者 · 36氪的朋友们来源 · 36kr浏览 · 5次2026-03-20

2026 年 3 月 16 日，Kimi 团队把一篇叫 Attention Residuals 的论文挂上了 arXiv，然后事情迅速失控。马斯克转发了，Karpathy 评了一句“我们还没有真正把 Attention is All You Need 的标题当回事”，前 OpenAI 联合创始人 Jerry Tworek 直接给了四个字，deep learning 2.0。一篇来自中国团队的架构论文能在硅谷引起这种级别的讨论，上一次可能要追溯到 DeepSeek-V3。但热闹归热闹，大多数讨论停留在“Kimi 搞了个新东西，大佬们很兴奋”的层面。被忽略的是，同一天，字节跳动 Seed 团队和华中科技大学联合发了另一篇论文，叫 Mixture-of-Depths Attention（MoDA），解决的是完全相同的问题，用的是完全不同的路线。同一周内，南京大学 Dilxat Muhtar、MPI Shiwei Liu 等人的第三篇论文“When Does Sparsity Mitigate the Curse of Depth in LLMs”...