簡述
- Google表示其TurboQuant演算法可在推理期間將主要的AI記憶體瓶頸降低至少六倍,且不損失準確度。
- 在論文流傳後,包括Micron、Western Digital和Seagate在內的記憶體股票下跌。
- 該方法壓縮的是推理記憶體而非模型權重,且僅在研究基準測試中進行過測試。
Google Research於週三發布了TurboQuant,這是一種壓縮演算法,可將主要的推理記憶體瓶頸縮小至少6倍,同時保持零準確度損失。
該論文預定於ICLR 2026上發表,線上反應立即湧現。
Cloudflare執行長Matthew Prince稱其為Google的DeepSeek時刻。包括Micron、Western Digital和Seagate在內的記憶體股價在同一天下跌。
那麼這是真的嗎?
量化效率本身就是一項重大成就。但「零準確度損失」需要背景說明。
TurboQuant針對的是KV快取——GPU記憶體中儲存語言模型在對話期間需要記住的所有內容的區塊。
隨著上下文視窗增長至數百萬個token,這些快取會膨脹到每次對話數百GB。這才是真正的瓶頸。不是運算能力,而是原始記憶體。
傳統壓縮方法試圖透過數字取整來縮小這些快取——例如從32位元浮點數降低到16、8到4位元整數。為了更好地理解它,可以想像將影像從4K縮小到Full HD,再到720p等等。整體上很容易看出這是同一張影像,但4K解析度有更多細節。
問題是:它們必須在壓縮資料旁邊儲存額外的「量化常數」,以防止模型出錯。這些常數為每個值增加了1到2位元,部分抵消了收益。
TurboQuant聲稱完全消除了這種額外開銷。
它透過兩個子演算法實現這一點。PolarQuant將向量中的量級與方向分離,而QJL(量化Johnson-Lindenstrauss)將剩餘的微小殘差誤差降低到單一符號位元,正或負,零儲存常數。
Google表示,結果是用於驅動Transformer模型的注意力計算的數學上無偏估計器。
在使用Gemma和Mistral的基準測試中,TurboQuant在4倍壓縮下達到了全精度效能,包括在高達104,000個token的大海撈針任務中實現完美檢索準確度。
關於這些基準測試為何重要的背景,在不損失品質的情況下擴展模型的可用上下文一直是LLM部署中最困難的問題之一。
現在,細節部分。
「零準確度損失」適用於推理期間的KV快取壓縮——而非模型的權重。壓縮權重是一個完全不同、更困難的問題。TurboQuant不涉及這些。
它壓縮的是儲存對話中期注意力計算的臨時記憶體,這更容易處理,因為理論上這些資料可以重建。
乾淨的基準測試與服務數十億請求的生產系統之間也存在差距。TurboQuant是在開源模型——Gemma、Mistral、Llama上測試的,而非Google自己的大規模Gemini堆疊。
與DeepSeek的效率提升(需要從一開始就內建深層架構決策)不同,TurboQuant不需要重新訓練或微調,並聲稱執行時額外開銷可忽略不計。理論上,它可以直接融入現有的推理管線。
這正是讓記憶體硬體產業感到恐慌的部分——因為如果它在生產中有效,每個主要的AI實驗室都能在他們已經擁有的相同GPU上以更精簡的方式執行。
該論文將在ICLR 2026上發表。在投入生產之前,「零損失」的標題仍停留在實驗室中。
每日簡報電子報
每天以最新頭條新聞開始,還有原創專題、Podcast、影片等更多內容。
來源:https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss


