Google 最新 FACTS 測試揭露 AI 聊天機器人真實實力: 即使領先的 Gemini 3 Pro 準確度也僅 69%, 代表每三個回答就有一個錯誤。ChatGPT、Claude、Grok 等主流模型表現更低,多模態理解準確度甚至不到五成。對金融、醫療、法律等高風險產業,這項發現敲響警鐘。AI 正在進步,但在成Google 最新 FACTS 測試揭露 AI 聊天機器人真實實力: 即使領先的 Gemini 3 Pro 準確度也僅 69%, 代表每三個回答就有一個錯誤。ChatGPT、Claude、Grok 等主流模型表現更低,多模態理解準確度甚至不到五成。對金融、醫療、法律等高風險產業,這項發現敲響警鐘。AI 正在進步,但在成

生成式 AI 聊天有多唬爛?Google 基準測試揭三成回應仍錯誤

2025/12/17 16:05

Google 最新發布的 AI 聊天機器人評估報告顯示,即使是表現最佳的模型,事實準確度也僅達 69%。這代表著當前主流 AI 聊天機器人平均每三個回答就有一個出錯,即便它們回應時聽起來信心十足。這項由 Google FACTS 團隊與 Kaggle 共同開發的基準測試套件,針對 Gemini、ChatGPT、Claude 和 Grok 等領先模型進行評估,結果揭示了 AI 技術在實際應用上仍存在顯著的可靠性問題。

這項測試的重要性在於,它不同於過去多數 AI 評估只關注「能否完成任務」, 而是直接檢視「產生的資訊是否正確」。對金融、醫療和法律等領域而言,這種準確度落差可能帶來實質損失。當使用者誤以為聊天機器人提供的流暢回應等同於正確資訊時,錯誤的後果往往難以挽回。

FACTS 基準測試的創新評估方法

Google 開發的 FACTS 基準測試套件採用四個實際應用場景來檢驗 AI 的事實準確度。第一項測試為「參數知識」(parametric knowledge), 檢視模型能否僅憑訓練期間學習的知識回答事實性問題,這反映了 AI 的基礎知識儲備是否紮實。第二項評估「搜尋表現」, 測試模型使用網路工具檢索正確資訊的能力,這對需要即時資訊的應用場景相當關鍵。

第三項測試聚焦於「資料根據性」(grounding), 評估模型在提供文件時,能否忠實呈現文件內容而不添加虛構細節。這項能力對企業文件分析、法律審查等專業領域特別重要。第四項則檢驗「多模態理解」, 包括正確解讀圖表、圖解和影像的能力。這套全方位的測試架構,首次系統性地量化了 AI 聊天機器人在不同應用情境下的真實可靠度。

市場領先模型的表現差異分析

測試結果顯示各模型之間存在明顯的能力落差。Google 自家的 Gemini 3 Pro 以 69% 的整體準確度領先,這個數字雖然在參與測試的模型中最高,但仍代表著近三分之一的回應存在錯誤。緊追其後的是 Gemini 2.5 Pro 和 OpenAI 的 ChatGPT-5, 兩者的準確度都接近 62%, 顯示即使是最先進的商業模型,在事實準確性上仍有顯著進步空間。

Anthropic 的 Claude 4.5 Opus 獲得約 51% 的分數,而 xAI 的 Grok 4 則達到約 54%。這些數據揭示了一個關鍵事實: 模型的流暢度和對話能力並不等同於事實準確度。部分模型可能在對話體驗上表現出色,但在提供正確資訊方面卻相對薄弱。這種「表達自信但內容錯誤」的特性,正是當前 AI 應用最需要警惕的風險。

多模態任務成為集體短板

所有受測模型在多模態任務上的表現都明顯較差,準確度普遍低於 50%。這個結果特別值得關注,因為多模態理解涉及解讀圖表、圖解或影像等視覺資訊,這些任務在商業環境中極為常見。一個 AI 可能自信地誤讀銷售圖表的趨勢線,或從財務報表中提取錯誤數字,而這類錯誤往往不易被使用者立即察覺。

多模態理解的低準確度反映了 AI 技術在整合不同類型資訊時的根本挑戰。當模型需要同時處理文字描述和視覺元素,並建立兩者之間的正確關聯時,錯誤率顯著上升。對於依賴數據視覺化做決策的企業而言,這代表著 AI 輔助工具在解讀儀表板、分析報告或市場研究圖表時,仍需要人工進行嚴格的事實查核。

高風險產業面臨的實際挑戰

準確度不足對特定產業的影響尤其嚴重。在金融領域,AI 若錯誤解讀市場數據或監管文件,可能導致錯誤的投資建議或合規失誤。醫療產業若仰賴不準確的 AI 資訊,可能影響診斷建議或藥物資訊的正確性。法律服務中,如果 AI 在案例研究或法規引用上出錯,後果可能涉及訴訟風險和專業責任問題。

這些領域的共同特徵是對準確性的要求極高,且錯誤的成本難以估量。當 AI 以流暢且看似專業的語氣提供資訊時,使用者容易產生過度信任。Google 的測試數據提醒企業,在將 AI 整合進關鍵業務流程前,必須建立完善的驗證機制和人工監督系統,而非將 AI 視為可以獨立作業的自動化解決方案。

當前技術局限與改進方向

測試結果顯示 AI 聊天機器人正在進步,但距離成為「可靠的真相來源」仍有一段距離。即使是表現最佳的模型,仍有接近三分之一的錯誤率,這個比例在專業應用中難以被接受。技術改進的方向應包括強化模型的事實查核能力、提升多模態資訊整合的準確度,以及建立更有效的不確定性表達機制,讓 AI 能在不確定時明確告知使用者。

企業在採用 AI 技術時,應根據應用場景的風險程度調整信任層級。對於創意發想或初步資訊搜集等低風險任務,當前 AI 已可提供有價值的協助。但對於需要高度準確性的決策支援,則必須配置驗證流程、建立多重資訊來源的交叉比對機制,並保持人類專家在最終決策環節的主導地位。

Google 的 FACTS 基準測試為 AI 產業提供了一次誠實的現實檢視。69% 的最佳準確度數字既顯示了技術的進步,也標示出仍需跨越的門檻。對使用者和企業而言,關鍵不是放棄使用 AI, 而是建立適當的使用框架: 將 AI 視為需要驗證的輔助工具 , 而非無條件信賴的權威來源。隨著技術持續演進,準確度提升可期,但在那之前,謹慎和監督仍是不可或缺的配套措施。

責任編輯:Mia
核稿編輯:Sherlock

本文初稿由 INSIDE 使用 AI 協助編撰,並經人工審校確認。加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員

延伸閱讀:

  • Google 提出新一代 AI 記憶架構:Titans 與 MIRAS 可突破長文本瓶頸

  • Google 宣布「暗網報告」服務將於 2026 年終止,聚焦整合性資安工具

市場機遇
Sleepless AI 圖標
Sleepless AI實時價格 (AI)
$0.0376
$0.0376$0.0376
-1.77%
USD
Sleepless AI (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。