马斯克转发Kimi论文引起硅谷大讨论,Attention下一个战场是什么?

2026 年 3 月 16 日,Kimi 团队把一篇叫 Attention Residuals 的论文挂上了 arXiv,然后事情迅速失控。马斯克转发了,Karpathy 评了一句“我们还没有真正把 Attention is All You Need 的标题当回事”,前 OpenAI 联合创始人 Jerry Tworek 直接给了四个字,deep learning 2.0。一篇来自中国团队的架构论文能在硅谷引起这种级别的讨论,上一次可能要追溯到 DeepSeek-V3。 但热闹归热闹,大多数讨论停留在“Kimi 搞了个新东西,大佬们很兴奋”的层面。被忽略的是,同一天,字节跳动 Seed 团队和华中科技大学联合发了另一篇论文,叫 Mixture-of-Depths Attention(MoDA),解决的是完全相同的问题,用的是完全不同的路线。同一周内,南京大学 Dilxat Muhtar、MPI Shiwei Liu 等人的第三篇论文“When Does Sparsity Mitigate the Curse of Depth in LLMs”...

查看原文 →