Google TurboQuant内存压缩技术：能省内存但救不了DRAM价格危机_资讯

创始人

2026-04-03 10:38:34

当Google发布TurboQuant这项AI数据压缩技术时，承诺能大幅减少模型服务所需的内存量，许多人希望它能缓解内存短缺问题——自去年以来内存价格已经涨了三倍。但事实并非如此。

TurboQuant并不是你期待的救星。尽管如此，这项底层技术仍然值得深入了解，因为它对模型开发者和推理服务提供商有重大影响。

TurboQuant到底是什么

在Google研究人员最近发布的博客文章中详细介绍，TurboQuant本质上是一种将生成式AI中使用的数据从高精度压缩到低精度的方法，这种方法通常被称为量化。

据研究人员称，TurboQuant有潜力将推理过程中的内存消耗减少至少6倍，这在DRAM和NAND价格创历史新高的时刻是一个大胆的声明。

然而，与大多数量化方法不同，TurboQuant并不缩小模型本身。相反，它旨在减少存储键值（KV）缓存所需的内存量，这些缓存用于在大语言模型推理过程中维护上下文。

简单来说，KV缓存有点像模型的短期记忆。例如，在聊天会话中，KV缓存是模型跟踪对话的方式。

问题在于这些KV缓存可能会快速堆积，通常消耗比模型本身更多的内存。

通常，这些KV缓存以16位精度存储，因此如果你能将存储它们所用的位数压缩到8位甚至4位，就可以将所需内存减少2到4倍。

虽然TurboQuant确实让人们关注到KV缓存量化，但整体概念并不新颖。事实上，推理引擎出于这些原因以FP8格式存储KV缓存是相当常见的。

然而，这种量化并非免费的。更低的精度意味着用更少的位来存储键值，因此需要更少的内存。这些量化方法也往往会带来自己的性能开销。

这正是TurboQuant创新的真正所在。Google声称它可以仅使用3.5位就能达到与BF16相似的质量，同时还能缓解那些讨厌的开销。在4位时，他们声称在H100上计算注意力对数时可以获得多达8倍的速度提升，这些对数用于决定上下文中什么对请求重要或不重要。

研究人员并没有止步于此。在测试中，他们发现可以将KV缓存压缩到2.5位，质量损失最小，这就是声称的6倍内存减少的来源。

它是如何工作的

TurboQuant通过结合两种数学方法来实现这一壮举：量化约翰逊-林登施特劳斯（QJL）和PolarQuant。

PolarQuant的工作原理是将KV缓存向量（这些只是幅度和方向的高维数学表达式）映射到使用极坐标而不是笛卡尔坐标的圆形网格上。

Google的博客文章解释道："这相当于将'向东走3个街区，向北走4个街区'替换为'总共走5个街区，角度为37度'。"

使用这种方法，向量的幅度和方向现在由其半径和角度表示，这家搜索巨头解释说，这消除了与数据标准化相关的内存开销，因为每个向量现在共享一个共同的参考点。

除了PolarQuant，Google还使用QJL来纠正第一阶段引入的任何错误，并保持模型用于确定什么信息对服务请求重要或不重要的注意力分数的准确性。

结果是这些向量可以使用一小部分内存来存储。而且这项技术也不仅限于KV缓存。据Google称，该技术对搜索引擎使用的向量数据库也有影响。

为什么TurboQuant不会拯救我们摆脱内存混乱

凭借声称的6:1压缩比，华尔街的许多人将内存制造商的下行螺旋与TurboQuant的推出联系起来也就不足为奇了。

但是，虽然这项技术可能会使AI推理集群更加高效，因此运营成本更低，但它不太可能抑制对用于存储这些KV缓存的NAND闪存和DRAM内存的需求。

一年前，像DeepSeek R1这样的开放权重模型提供的上下文窗口范围从64,000到256,000个Token。如今，找到拥有超过一百万Token上下文窗口的开放模型并不罕见。

TurboQuant可能允许推理提供商使用更少的内存，或者让他们服务具有更大上下文窗口的模型。随着代码助手和像OpenClaw这样的智能体框架推动对更大上下文窗口的需求，后者对我们来说似乎更有可能。

看起来TrendForce的行业观察家们也会同意这一观点。在本周早些时候发布的报告中，他们预测TurboQuant将激发对长上下文应用的需求，从而推动对更多内存的需求，而不是抑制它。

Q&A

Q1：TurboQuant是什么技术？

A：TurboQuant是Google开发的AI数据压缩技术，本质上是一种将生成式AI中使用的数据从高精度压缩到低精度的量化方法。它主要用于减少存储键值（KV）缓存所需的内存量，可以将推理过程中的内存消耗减少至少6倍。

Q2：TurboQuant如何实现如此高的压缩比？

A：TurboQuant结合了两种数学方法：量化约翰逊-林登施特劳斯（QJL）和PolarQuant。PolarQuant将KV缓存向量映射到使用极坐标的圆形网格上，消除了数据标准化的内存开销。QJL则用于纠正第一阶段引入的错误，保持注意力分数的准确性。

Q3：TurboQuant能解决内存价格上涨问题吗？

A：不能。虽然TurboQuant可以提高AI推理集群的效率，但它不太可能抑制对DRAM内存的需求。随着模型上下文窗口从几万Token增长到超过百万Token，以及代码助手和智能体框架的发展，TurboQuant更可能被用于服务更大上下文窗口的模型，而不是减少内存使用。