IT之家 3 月 26 日消息,谷歌研究院昨日(3 月 25 日)发布博文,推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈。向量是 AI 模型理解和处理信息的基础,但高维向量会消耗海量内存,从而在键值缓存(KV Cache)中引发严重的性能瓶颈。IT之家注:键值缓存是大语言模型生成文本时使用的一种高速缓存机制,通过存储历史计算结果来避免重复计算,但极易造成内存瓶颈。传统的高维向量量化技术虽然能压缩数据,却常常因为需要为微小数据块计算和存储量化常数,引入了额外的“内存开销”。这种额外负担部分抵消了压缩原本带来的优势,导致 AI 大模型在处理长文本或大规模搜索时依然受限。谷歌研究院为彻底解决这一难题,推出了全新压缩算法 TurboQuant。同时,研究团队还公布了支撑该算法的两项核心底层技术:量化 Johnson-Lindenstrauss(QJL)和 PolarQuant(将亮相 AISTATS 2026)。这三项技术协同工作,为高度依赖数据压缩的 AI 与搜索业务带来了全新解法,能够在完全不牺牲 AI 模型预测性能...
