谷歌推出压缩算法 TurboQuant：AI 运行内存占用锐降至 1/6 - AI资讯

IT之家 3 月 26 日消息，谷歌研究院昨日（3 月 25 日）发布博文，推出全新极端压缩算法 TurboQuant，有望重塑 AI 运行效率并解决大模型键值缓存（KV Cache）的内存瓶颈。向量是 AI 模型理解和处理信息的基础，但高维向量会消耗海量内存，从而在键值缓存（KV Cache）中引发严重的性能瓶颈。IT之家注：键值缓存是大语言模型生成文本时使用的一种高速缓存机制，通过存储历史计算结果来避免重复计算，但极易造成内存瓶颈。传统的高维向量量化技术虽然能压缩数据，却常常因为需要为微小数据块计算和存储量化常数，引入了额外的“内存开销”。这种额外负担部分抵消了压缩原本带来的优势，导致 AI 大模型在处理长文本或大规模搜索时依然受限。谷歌研究院为彻底解决这一难题，推出了全新压缩算法 TurboQuant。同时，研究团队还公布了支撑该算法的两项核心底层技术：量化 Johnson-Lindenstrauss（QJL）和 PolarQuant（将亮相 AISTATS 2026）。这三项技术协同工作，为高度依赖数据压缩的 AI 与搜索业务带来了全新解法，能够在完全不牺牲 AI 模型预测性能...