Kimi“打破Transformer架构”真相 - AI资讯

本周，一篇题为《Attention Residuals》的论文，将Kimi推至全球人工智能领域的聚光灯下。论文作者之一，甚至是一名年仅十七岁的高中生。xAI首席执行官埃隆·马斯克与Google高级人工智能产品经理Shubham Saboo，亦公开发文祝贺。后者更宣称，Kimi正在触及Transformer架构中“长达十年无人触碰的部分”。一时间，舆论场喧嚣四起。诸如“打破Transformer架构”、“硅谷破防”、“改写行业规则”等标题，迅速占据头条。本文结论先行：这是一项天才般的构想，一次极其硬核的研究，但其本质并未脱离Transformer架构的基本框架。至于那些耸人听闻的标签，大多出自营销号之手，缺乏事实依据。事实上，针对残差连接的探索并非孤例。从2022年的DeepNorm到2024年的DenseFormer，优化这一深度神经网络的基石，始终是业界持续发力的方向。Kimi研究团队并非此技术路线的开辟者，却在这条既有路径上，贡献了一个兼具激进性、优雅性与工程潜能的解决方案。 01 深层Transformer的结构性困境在规模化法则的驱动下，提...