儘管全球頂尖AI模型能在醫學考試、程式碼編寫等專業領域表現出色,卻在《寶可夢》這類兒童遊戲中屢屢受挫,暴露了其在長期推理、記憶和規劃方面的核心短板。本文源自 騰訊科技公眾號,作者為郭靜曉。 (前情提要:我用 AI 玩戰爭遊戲:GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜) (背景補充:Google「Gemini 2.0」來了!推出三種AI代理:複雜任務、遊戲、程式設計) 世界頂尖的AI模型可以通過醫學執照考試,可以編寫複雜程式碼,甚至能在數學競賽中擊敗人類專家,但是卻在一款兒童遊戲《寶可夢》中屢屢受挫。 這場引人矚目的嘗試始於2025年2月,當時Anthropic的一名研究人員推出了「Claude玩《寶可夢紅》」的Twitch直播,以此配合Claude Sonnet 3.7的發布。 2000名觀眾湧入直播間。在公共聊天區,觀眾們為Claude出謀劃策、加油打氣,使這場直播逐漸演變為一場圍繞AI能力展開的公開觀察。 Sonet3.7只能說是「會玩」《寶可夢》了,但「會玩」不等於「能贏」。它會在關鍵節點卡住數十小時,還會做出連兒童玩家都不會犯的低級錯誤。 這不是Claude第一次嘗試。 早期版本的表現更加災難:有的在地圖中毫無目標地遊蕩,有的陷入無限迴圈,更多的甚至無法走出新手村。 即便是能力顯著提升的Claude Opus 4.5,仍會出現令人費解的失誤。有一次,它在「道館外」繞圈整整四天,卻始終未能進入,原因僅僅是沒意識到需要砍倒擋在路口的一棵樹。 一款兒童遊戲,為何成了AI的滑鐵盧? 因為《寶可夢》要求的,恰恰是當今AI最缺乏的能力:在沒有明確指令的開放世界中持續推理、記憶數小時前的決策、理解隱含的因果關係、在數百個可能的行動中做出長期規劃。 這些事情對8歲孩子來說輕而易舉的事,對標榜「超越人類」的AI模型卻是不可逾越的鴻溝。 工具集差距決定成敗? 相比之下,谷歌的Gemini 2.5 Pro在2025年5月成功通關了一款難度相當的《寶可夢》遊戲。谷歌執行長桑達爾·皮查伊(Sundar Pichai)甚至在公開場合半開玩笑地表示,公司在打造「人工寶可夢智慧」方面邁出了一步。 然而,這一結果並不能簡單歸因於Gemini模型本身更「聰明」。 關鍵差異在於模型所使用的工具集。負責營運Gemini《寶可夢》直播的獨立開發者喬爾·張(Joel Zhang)將工具集比喻為一套「鋼鐵人裝甲」:AI並非赤手空拳進入遊戲,而是被置於一個可調用多種外部能力的系統中。 Gemini的工具集提供了更多支援,例如將遊戲畫面轉寫為文字,從而彌補模型在視覺理解上的弱點,並提供客製化的解謎與路徑規劃工具。相比之下,Claude所使用的工具集更為簡約,它的嘗試也更直接地反映出模型自身在感知、推理與執行上的真實能力。 在日常任務中,這類差異並不明顯。 當使用者向聊天機器人提出需聯網查詢的請求時,模型同樣會自動調用搜尋工具。但在《寶可夢》這類長期任務中,工具集的差異被放大至足以決定成敗的程度。 回合制暴露AI的「長期記憶」短板 由於《寶可夢》採用嚴格的回合制且無需即時反應,它成為了測試 AI 的絕佳「練兵場」。AI 在每一步操作中,只需結合當前畫面、目標提示與可選操作進行推理,即可輸出「按A鍵」這類明確的指令。 這似乎正是大語言模型最擅長的互動形式。 癥結恰恰在於時間維度的「斷層」。儘管 Claude Opus 4.5 已累計運行超 500 小時、執行約 17 萬步,但受限於每一步操作後的重新初始化,模型只能在極窄的上下文視窗中尋找線索。這種機制讓它更像是一個靠便利貼維持認知的失憶者,在碎片化的資訊中循環往復,始終無法像真正的人類玩家那樣,實現從量變到質變的經驗跨越。 在國際象棋和圍棋等領域,AI系統早已超越人類,但這些系統是為特定任務高度客製化的。相比之下,Gemini、Claude和GPT作為通用模型,在考試、程式設計競賽中頻頻擊敗人類,卻在一款兒童向遊戲中屢屢受挫。 這種反差本身便極具啟示性。 在喬爾·張看來,AI面臨的核心挑戰在於無法在長時間跨度內持續執行單一明確目標。「如果你希望智慧體完成真正的工作,它不能忘記五分鐘前自己做了什麼」他指出。 而這種能力,正是實現認知勞動自動化不可或缺的前提。 獨立研究者彼得·惠登(Peter Whidden)給出了更直觀的描述。他曾開源一個基於傳統AI的《寶可夢》演算法。「AI對《寶可夢》幾乎無所不知」他表示,「它在海量人類資料上訓練,清楚知道正確答案。但一到執行階段,就顯得笨拙不堪。」 遊戲中,這種「知道卻做不到」的斷層被不斷放大:模型可能知道需尋找某道具,卻無法在二維地圖中穩定定位;知道應與NPC對話,卻在像素級移動中反覆失敗。 能力演進背後:未跨越的「本能」鴻溝 儘管如此,AI的進步仍清晰可見。Claude Opus 4.5在自我記錄和視覺理解上明顯優於前代,得以在遊戲中推進更遠。Gemini 3 Pro在通關《寶可夢藍》後,又完成了難度更高的《寶可夢水晶》,且全程未輸一場戰鬥。這是Gemini 2.5 Pro從未實現的。 與此同時,Anthropic推出的Claude Code工具集允許模型編寫並運行自有程式碼,已被用於《乘客大亨》等復古遊戲,據稱能成功管理虛擬主題公園。 這些案例揭示了一個不直觀的現實:配備合適工具集的AI,可能在軟體開發、會計、法律分析等知識工作中展現極高效率,即便它們仍難以應對需要即時反應的任務。 《寶可夢》實驗還揭示另一耐人尋味的現象:在人類資料上訓練的模型,會表現出近似人類的行為特徵。 在Gemini 2.5 Pro的技術報告中,谷歌指出,當系統模擬「恐慌狀態」,如寶可夢即將昏厥時,模型的推理品質會顯著下降。 而當Gemini 3 Pro最終通關《寶可夢藍》時,它為自己留下了一段非任務必需的備註:「為了詩意地結束,我要回到最初的家,與母親進行最後一次對話,讓角色退休。」 在喬爾·張看來,這一行為出乎意料,還帶有某種...


