Google DeepMind 本週推出了兩款人工智慧模型,旨在讓機器人比以往更加智慧。升級後的Gemini Robotics 1.5 及其配套的Gemini Robotics-ER 1.5 不再專注於關注評論,而是讓機器人能夠思考問題、在互聯網上搜索信息,並在不同的機器人代理之間傳遞技能。
谷歌表示,這些模型標誌著“能夠以智能和靈巧的方式應對物理世界的複雜性的基礎性一步”
谷歌在公告中表示:“Gemini Robotics 1.5 標誌著我們在解決物理世界中的通用人工智能 (AGI) 問題方面邁出了重要的一步。通過引入代理功能,我們正在超越那些對命令做出反應的模型,並創建能夠真正推理、規劃、主動使用工具和進行泛化的系統。”
「泛化」這個術語很重要,因為模型很難做到這一點。
由這些模型驅動的機器人現在可以執行各種任務,例如按顏色分類衣物、根據線上天氣預報打包行李箱,或查看當地的垃圾回收規定以正確丟棄垃圾。現在,身為人類,你可能會說:「這又怎麼樣?」 但要做到這一點,機器需要一種名為泛化的能力——將知識應用於新情況的能力。
機器人——以及一般的演算法——通常都很難做到這一點。例如,如果你教一個模型折一條褲子,它就無法折一件T卹,除非工程師事先對每個步驟進行程式設計。
新模型改變了這一切。它們能夠捕捉線索、解讀環境、做出合理假設,並執行過去機器無法完成(或至少極為困難)的多步驟任務。
但「更好」並不意味著「完美」。例如,在一項實驗中,團隊向機器人展示了一組物品,並要求它們將它們扔進正確的垃圾桶。機器人利用攝影機識別每件物品,並在線上調取舊金山最新的回收指南,然後自動將它們放入理想的垃圾桶,就像當地人一樣。

這個過程結合了線上搜尋、視覺感知和逐步規劃,能夠做出超越傳統機器人的情境感知決策。記錄的成功率在 20% 到 40% 之間;雖然不理想,但對於一個之前從未理解過這些細微差別的模型來說,這還是令人驚訝的。

谷歌如何將機器人變成超級機器人
兩個模式分工協作。 Gemini Robotics-ER 1.5 就像大腦一樣,負責確定需要做什麼,並製定逐步計劃。當它需要資訊時,Gemini Gemini 1.5,由後者負責實際的物理動作。
更從技術角度來說,新的Gemini Robotics 1.5 是一個視覺-語言-動作 (VLA) 模型,可以將視覺資訊和指令轉化為運動命令,而新的Gemini Robotics-ER 1.5 是一個視覺-語言模型 (VLM),可以創建多步驟計劃來完成任務。
例如,當機器人對衣物進行分類時,它會透過一系列思維鏈進行內部推理:理解「按顏色分類」意味著白色衣物放入一個分類箱,彩色衣物放入另一個分類箱,然後分解出拿起每件衣物所需的具體動作。機器人可以用簡單的英語解釋其推理過程,使其決策不再像黑盒子那麼複雜。
Google執行長桑達爾·皮查伊(Sundar Pichai)對X專案發表了看法,他指出,新模型將使機器人能夠更好地推理、提前規劃、使用搜尋等數位工具,並將學習成果從一種機器人遷移到另一種機器人。他稱這是Google「邁向真正有用的通用機器人的下一大步」。
全新Gemini Robotics 1.5 型號將使機器人能夠更好地推理、提前規劃、使用「搜尋」等數位工具,並將學習成果從一種機器人遷移到另一種機器人。我們朝著真正有用的通用機器人邁出了重要的一步——您可以看到機器人如何推理…pic.twitter.com/kw3HtbF6Dd
- Sundar Pichai (@sundarpichai) 2025 年 9 月 25 日
此次發布讓谷歌與特斯拉、Figure AI 和波士頓動力等開發人員共同成為焦點,儘管每家公司採取了不同的方法。特斯拉專注於其工廠的大規模生產,馬斯克承諾在 2026 年實現數千台量產。波士頓動力憑藉其後空翻機器人 Atlas,持續突破機器人運動能力的極限。同時,谷歌則押注於能讓機器人無需特定編程即可適應任何情況的人工智慧。
時機至關重要。美國機器人公司正在推動國家機器人戰略,包括設立一個專注於推動該產業發展的聯邦辦公室,而中國正將人工智慧和智慧機器人列為國家重點發展方向。中國是全球最大的工廠和其他工業環境中機器人市場,根據總部位於德國的國際機器人聯合會的數據,到2023年,中國將有約180萬台機器人投入運作。

DeepMind 的方法不同於傳統的機器人編程,傳統的機器人編程需要工程師一絲不苟地寫出每個動作的程式碼。相反,這些模型透過演示進行學習,並能夠隨時調整。如果物體從機器人的手中滑落,或是有人在執行任務的過程中移動了某個物體,機器人就會毫不猶豫地進行調整。
這些模型建立在 DeepMind 3 月的早期研究成果之上,當時機器人只能處理諸如拉開袋子拉鍊或折疊紙張之類的單一任務。現在,它們正在處理許多對人類來說具有挑戰性的任務,例如在查看天氣預報後,為旅行打包合適的行李。
對於想要進行實驗的開發者來說,有兩種不同的可用性方案。 Gemini Robotics-ER 1.5 已於週四透過 Google AI Studio 中的Gemini API 發布,這意味著任何開發者都可以使用該推理模型進行建置。Gemini行動模式Gemini Robotics 1.5 則僅供「精選」(可能意味著「富有」)合作夥伴使用。