BitcoinWorld Google DeepMind 將街景與 Genie 3 融合,打造互動式 AI 世界 Google DeepMind 在連接實體世界方面邁出了重要一步BitcoinWorld Google DeepMind 將街景與 Genie 3 融合,打造互動式 AI 世界 Google DeepMind 在連接實體世界方面邁出了重要一步

Google DeepMind 將 Street View 與 Genie 3 融合,打造互動式 AI 世界

2026/05/20 02:15
閱讀時長 8 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

BitcoinWorld

Google DeepMind 將 Street View 與 Genie 3 融合,打造互動式 AI 世界

Google DeepMind 將 Street View 影像直接整合至公司的通用世界模型 Project Genie,在連結實體與數位世界方面邁出了重要一步。此整合於 Google I/O 開發者大會上宣布,讓使用者能夠生成以真實世界地點為基礎的互動式可探索環境,這些地點來自長達二十年的 Street View 資料。

從 Street View 到模擬現實

二十年來,Google 使用裝有攝影機的汽車及背包式追蹤裝置,在 110 個國家收集了超過 2,800 億張影像。如今,這個龐大的資料集正在為 Genie 3 提供資料,Genie 3 是一個能夠根據文字提示或影像生成多元互動式 3D 環境的世界模型。DeepMind 開放式團隊的研究科學家 Jack Parker-Holder 向 Bitcoin World 解釋,將真實世界資料與生成式模擬相結合,為機器人技術和人類探索開啟了強大的應用場景。

「這對於智能代理(及機器人)使用場景以及人類互動都非常強大,」Parker-Holder 說道。他描述了一個場景:部署在倫敦——一個鮮少見到陽光的城市——的機器人,可以透過 Street View 資料生成的模擬晴天進行訓練,讓維多利亞時代建築上突然閃爍的陽光不會干擾其感測器。同樣地,計劃冬季前往紐約市旅行的旅客,可以使用這個工具視覺化某個特定街區的雪景,並按需調整天氣條件。

機器人技術與自動駕駛訓練

Genie 3 已被 Google 旗下自動駕駛汽車子公司 Waymo 用於模擬極為罕見的事件——例如龍捲風或意外的動物出沒——以訓練自動駕駛車輛。Parker-Holder 指出,儘管 Waymo 擁有自己專注於車輛視角的模擬器,但 Street View 整合允許將視角轉換至其他智能代理,例如行人或配送機器人,從而實現更全面的訓練場景。

將模擬錨定於真實地理位置的能力,有助於加速 Waymo 向全球新城市擴張,讓其 AI 駕駛系統接觸到多樣化的道路佈局、標誌及環境條件,而無需實際部署車隊。

仍處於實驗階段,尚有成長空間

儘管展示效果令人印象深刻——包括某個社區的水下模擬——但這項技術仍處於實驗階段。DeepMind 產品經理 Diego Rivas 提醒,Genie 中的 Street View 功能仍在開發中。在向記者展示的樣本中,環境雖然可辨識,但畫質屬於電子遊戲等級,而非照片寫實風格。模型也缺乏物理感知:在一個模擬場景中,一名女性在白雪覆蓋的 Joshua Tree 場景中奔跑時,直接穿過了仙人掌和灌木叢。

Parker-Holder 承認存在差距,將 Genie 目前的準確度與六至十二個月前的影片生成模型相比較。「我認為這是我們將會解決的問題,」他說道,並指出物理理解能力會透過被動觀察自然而然地形成,類似於生命體的學習方式。

Google 地圖總監、擁有 12 年 Street View 經驗的 Jonathan Herbert 強調,真正的突破在於空間連續性。當使用者旋轉 360 度時,AI 能正確記憶並模擬其身後的環境,然後在此理解基礎上建構新的環境。「我們長期以來一直在思考如何在 Street View 資料之上建立最佳且最豐富的世界模型,」Herbert 說道。

上市時間與後續計劃

Google 從今日起向美國部分 Ultra 用戶推出 Genie 中的 Street View 功能,更廣泛的美國用戶存取將隨時間陸續開放。全球 Ultra 用戶將在未來幾週內獲得存取權限。根據 Rivas 的說法,研究人員的目標是讓盡可能多的人使用這項功能,但他強調準確性的提升仍是首要任務。

結論

透過將二十年的真實世界影像與生成式 AI 相連結,Google DeepMind 正在為新一類互動式模擬奠定基礎。儘管仍處於早期階段,將 Street View 整合至 Genie 3 代表著 AI 系統邁向理解、模擬並與實體世界互動的重要一步——對機器人技術、自動駕駛、城市規劃及沉浸式教育均具有深遠意義。

常見問題

Q1:什麼是 Genie 3?
Genie 3 是 Google DeepMind 的通用世界模型,能夠根據文字提示或影像生成互動式可探索 3D 環境。它專為機器人訓練、遊戲及教育體驗而設計。

Q2:Street View 整合是如何運作的?
此整合讓 Genie 3 能夠使用 Google 龐大的 Street View 影像資料集——來自 110 個國家的超過 2,800 億張影像——作為生成模擬的基礎,這些模擬錨定於真實世界地點。使用者可以互動式地探索這些環境,並調整天氣等條件。

Q3:模擬在物理上是否準確?
目前尚未達到。現有版本缺乏物理感知,這意味著物體之間的互動可能不夠真實(例如,角色可以穿過固體物件)。Google 預期隨著模型透過更多資料直觀地學習物理知識,這一情況將在未來 6 至 12 個月內改善。

This post Google DeepMind Fuses Street View with Genie 3 to Create Interactive AI Worlds first appeared on BitcoinWorld.

市場機遇
Gensyn 圖標
Gensyn實時價格 (AI)
$0.03407
$0.03407$0.03407
-2.35%
USD
Gensyn (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

不懂圖表?照樣獲利

不懂圖表?照樣獲利不懂圖表?照樣獲利

使用自動交易,3 秒鐘即可跟單頂級交易者!