谷歌一篇论文引爆存储芯片崩盘,AI内存需求暴降6倍,推理狂飙8倍

一篇论文搅动万亿市场,存储芯片的天塌了... 谁也未曾料到,本周三美股开盘,存储芯片板块遭遇「黑色时刻」,巨头股价全线飘绿—— 截至收盘,美光科技下跌4%,西部数据下跌4.4%,希捷下跌5.6%,闪迪更是重挫6.5%。 引发这场抛售地震的导火索,正是谷歌发布的TurboQuant压缩算法。 众所周知,大模型跑起来时,KV缓存(KV cache)简直是内存界的「吞金兽」。 为了不重复计算之前的Token,LLM维持一份「运行记忆」,随着对话越来越长,这份记忆会像滚雪球一样迅速膨胀。 谷歌的TurboQuant,给出了一套极其「暴力」的瘦身方案: 首先,把KV缓存里的高维向量做一次「旋转」,再换一套极坐标系来描述,内存开销直接归0。  然后,用仅仅1-bit额外空间,放一个数学「校正器」进去,把压缩带来的系统性偏差精确抹平。 TurboQuant论文将于下月举办的ICLR 2026上正式发表 结果非常顶:不用任何重训,TurboQuant把缓存压缩至丧心病狂的3-bit。 这么一来,KV缓存开销骤降6倍,关键是,推理表...

查看原文 →