Google 縮減 AI 記憶體且不損失準確度——但有個陷阱

Google Research於週三發布了TurboQuant，這是一種壓縮演算法，可將主要的推理記憶體瓶頸縮小至少6倍，同時保持零準確度損失。

該論文預定於ICLR 2026上發表，線上反應立即湧現。

Cloudflare執行長Matthew Prince稱其為Google的DeepSeek時刻。包括Micron、Western Digital和Seagate在內的記憶體股價在同一天下跌。

那麼這是真的嗎？

量化效率本身就是一項重大成就。但「零準確度損失」需要背景說明。

TurboQuant針對的是KV快取——GPU記憶體中儲存語言模型在對話期間需要記住的所有內容的區塊。

隨著上下文視窗增長至數百萬個token，這些快取會膨脹到每次對話數百GB。這才是真正的瓶頸。不是運算能力，而是原始記憶體。

傳統壓縮方法試圖透過數字取整來縮小這些快取——例如從32位元浮點數降低到16、8到4位元整數。為了更好地理解它，可以想像將影像從4K縮小到Full HD，再到720p等等。整體上很容易看出這是同一張影像，但4K解析度有更多細節。

問題是：它們必須在壓縮資料旁邊儲存額外的「量化常數」，以防止模型出錯。這些常數為每個值增加了1到2位元，部分抵消了收益。

TurboQuant聲稱完全消除了這種額外開銷。

它透過兩個子演算法實現這一點。PolarQuant將向量中的量級與方向分離，而QJL（量化Johnson-Lindenstrauss）將剩餘的微小殘差誤差降低到單一符號位元，正或負，零儲存常數。

Google表示，結果是用於驅動Transformer模型的注意力計算的數學上無偏估計器。

在使用Gemma和Mistral的基準測試中，TurboQuant在4倍壓縮下達到了全精度效能，包括在高達104,000個token的大海撈針任務中實現完美檢索準確度。

關於這些基準測試為何重要的背景，在不損失品質的情況下擴展模型的可用上下文一直是LLM部署中最困難的問題之一。

現在，細節部分。

「零準確度損失」適用於推理期間的KV快取壓縮——而非模型的權重。壓縮權重是一個完全不同、更困難的問題。TurboQuant不涉及這些。

它壓縮的是儲存對話中期注意力計算的臨時記憶體，這更容易處理，因為理論上這些資料可以重建。

乾淨的基準測試與服務數十億請求的生產系統之間也存在差距。TurboQuant是在開源模型——Gemma、Mistral、Llama上測試的，而非Google自己的大規模Gemini堆疊。

與DeepSeek的效率提升（需要從一開始就內建深層架構決策）不同，TurboQuant不需要重新訓練或微調，並聲稱執行時額外開銷可忽略不計。理論上，它可以直接融入現有的推理管線。

這正是讓記憶體硬體產業感到恐慌的部分——因為如果它在生產中有效，每個主要的AI實驗室都能在他們已經擁有的相同GPU上以更精簡的方式執行。

該論文將在ICLR 2026上發表。在投入生產之前，「零損失」的標題仍停留在實驗室中。

每天以最新頭條新聞開始，還有原創專題、Podcast、影片等更多內容。

來源：https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss