BitcoinWorld
Google DeepMind 將 Street View 與 Genie 3 融合,打造互動式 AI 世界
Google DeepMind 將 Street View 影像直接整合至公司的通用世界模型 Project Genie,在連結實體與數位世界方面邁出了重要一步。此整合於 Google I/O 開發者大會上宣布,讓使用者能夠生成以真實世界地點為基礎的互動式可探索環境,這些地點來自長達二十年的 Street View 資料。
二十年來,Google 使用裝有攝影機的汽車及背包式追蹤裝置,在 110 個國家收集了超過 2,800 億張影像。如今,這個龐大的資料集正在為 Genie 3 提供資料,Genie 3 是一個能夠根據文字提示或影像生成多元互動式 3D 環境的世界模型。DeepMind 開放式團隊的研究科學家 Jack Parker-Holder 向 Bitcoin World 解釋,將真實世界資料與生成式模擬相結合,為機器人技術和人類探索開啟了強大的應用場景。
「這對於智能代理(及機器人)使用場景以及人類互動都非常強大,」Parker-Holder 說道。他描述了一個場景:部署在倫敦——一個鮮少見到陽光的城市——的機器人,可以透過 Street View 資料生成的模擬晴天進行訓練,讓維多利亞時代建築上突然閃爍的陽光不會干擾其感測器。同樣地,計劃冬季前往紐約市旅行的旅客,可以使用這個工具視覺化某個特定街區的雪景,並按需調整天氣條件。
Genie 3 已被 Google 旗下自動駕駛汽車子公司 Waymo 用於模擬極為罕見的事件——例如龍捲風或意外的動物出沒——以訓練自動駕駛車輛。Parker-Holder 指出,儘管 Waymo 擁有自己專注於車輛視角的模擬器,但 Street View 整合允許將視角轉換至其他智能代理,例如行人或配送機器人,從而實現更全面的訓練場景。
將模擬錨定於真實地理位置的能力,有助於加速 Waymo 向全球新城市擴張,讓其 AI 駕駛系統接觸到多樣化的道路佈局、標誌及環境條件,而無需實際部署車隊。
儘管展示效果令人印象深刻——包括某個社區的水下模擬——但這項技術仍處於實驗階段。DeepMind 產品經理 Diego Rivas 提醒,Genie 中的 Street View 功能仍在開發中。在向記者展示的樣本中,環境雖然可辨識,但畫質屬於電子遊戲等級,而非照片寫實風格。模型也缺乏物理感知:在一個模擬場景中,一名女性在白雪覆蓋的 Joshua Tree 場景中奔跑時,直接穿過了仙人掌和灌木叢。
Parker-Holder 承認存在差距,將 Genie 目前的準確度與六至十二個月前的影片生成模型相比較。「我認為這是我們將會解決的問題,」他說道,並指出物理理解能力會透過被動觀察自然而然地形成,類似於生命體的學習方式。
Google 地圖總監、擁有 12 年 Street View 經驗的 Jonathan Herbert 強調,真正的突破在於空間連續性。當使用者旋轉 360 度時,AI 能正確記憶並模擬其身後的環境,然後在此理解基礎上建構新的環境。「我們長期以來一直在思考如何在 Street View 資料之上建立最佳且最豐富的世界模型,」Herbert 說道。
Google 從今日起向美國部分 Ultra 用戶推出 Genie 中的 Street View 功能,更廣泛的美國用戶存取將隨時間陸續開放。全球 Ultra 用戶將在未來幾週內獲得存取權限。根據 Rivas 的說法,研究人員的目標是讓盡可能多的人使用這項功能,但他強調準確性的提升仍是首要任務。
透過將二十年的真實世界影像與生成式 AI 相連結,Google DeepMind 正在為新一類互動式模擬奠定基礎。儘管仍處於早期階段,將 Street View 整合至 Genie 3 代表著 AI 系統邁向理解、模擬並與實體世界互動的重要一步——對機器人技術、自動駕駛、城市規劃及沉浸式教育均具有深遠意義。
Q1:什麼是 Genie 3?
Genie 3 是 Google DeepMind 的通用世界模型,能夠根據文字提示或影像生成互動式可探索 3D 環境。它專為機器人訓練、遊戲及教育體驗而設計。
Q2:Street View 整合是如何運作的?
此整合讓 Genie 3 能夠使用 Google 龐大的 Street View 影像資料集——來自 110 個國家的超過 2,800 億張影像——作為生成模擬的基礎,這些模擬錨定於真實世界地點。使用者可以互動式地探索這些環境,並調整天氣等條件。
Q3:模擬在物理上是否準確?
目前尚未達到。現有版本缺乏物理感知,這意味著物體之間的互動可能不夠真實(例如,角色可以穿過固體物件)。Google 預期隨著模型透過更多資料直觀地學習物理知識,這一情況將在未來 6 至 12 個月內改善。
This post Google DeepMind Fuses Street View with Genie 3 to Create Interactive AI Worlds first appeared on BitcoinWorld.


