智东西3月18日报道,今日凌晨,在英伟达GTC大会上,月之暗面创始人杨植麟作为本届唯一受邀现场演讲的中国独立大模型公司创始人,发表题为《How We Scaled Kimi K2.5》的演讲,首次完整披露Kimi K2.5背后的技术路线图。 就在3月16日,月之暗面刚刚发布最新论文,提前预览了下一代模型的关键模块——注意力残差(Attention Residuals,简称AttnRes)。这篇论文的核心,是对大模型中最基础、却长期被默认接受的结构之一残差连接(Residual Connection)的重新设计。 这项进展很快引发海外AI圈关注。埃隆·马斯克(Elon Musk)称其“令人印象深刻”;前OpenAI研究副总裁、联合创始人安德烈·卡帕西(Andrej Karpathy)则直言,人们对《Attention is All You Need》这篇Transformer开山之作的理解,可能还不够充分。 而在这次GTC演讲中,杨植麟将这项研究放回Kimi更完整的技术框架中,给出了一张更系统的“路线图”。他将Kimi K2.5的进化...
