谷歌一篇论文引爆存储芯片崩盘，AI内存需求暴降6倍，推理狂飙8倍 - AI资讯

一篇论文搅动万亿市场，存储芯片的天塌了... 谁也未曾料到，本周三美股开盘，存储芯片板块遭遇「黑色时刻」，巨头股价全线飘绿—— 截至收盘，美光科技下跌4%，西部数据下跌4.4%，希捷下跌5.6%，闪迪更是重挫6.5%。引发这场抛售地震的导火索，正是谷歌发布的TurboQuant压缩算法。众所周知，大模型跑起来时，KV缓存（KV cache）简直是内存界的「吞金兽」。为了不重复计算之前的Token，LLM维持一份「运行记忆」，随着对话越来越长，这份记忆会像滚雪球一样迅速膨胀。谷歌的TurboQuant，给出了一套极其「暴力」的瘦身方案：首先，把KV缓存里的高维向量做一次「旋转」，再换一套极坐标系来描述，内存开销直接归0。  然后，用仅仅1-bit额外空间，放一个数学「校正器」进去，把压缩带来的系统性偏差精确抹平。 TurboQuant论文将于下月举办的ICLR 2026上正式发表结果非常顶：不用任何重训，TurboQuant把缓存压缩至丧心病狂的3-bit。这么一来，KV缓存开销骤降6倍，关键是，推理表...