OpenAI重金押注，機器人NEO世界模型登場，機器人迎來ChatGPT時刻？

09-18

【導讀】剛剛，OpenAI重金押注的人形機器人初創1X終於揭秘了背後的「世界模型」——它能夠根據真實數據，生成針對不同場景的中的行為預測！機器人領域的ChatGPT時刻，或許真的要來了。

月初，OpenAI投下重注人形機器人初創1X，終於放出了NEO官宣視頻。

它的首次現身，就驚豔到所有人。

不僅外觀上，被戲稱為「穿著西裝的人」，而且在能力上，幫女主拎包、一起下廚，妥妥的一個通用家庭機器人。

它專為人類設計，去完成我們不願意做的各種家庭任務，比如清潔、整理等等。

時隔半個月，1X終於發佈了NEO背後的「世界模型」。

有了這個虛擬世界模擬器，NEO可以預測有用的物體交互。

簡言之，它們完全可以生成，各種環境中的視頻畫面。

比如，疊一件T恤、拉開窗簾這類可變性物體，家裡隨處可見，但卻很難將其放入虛擬世界模擬器中。

有趣的是，1X AI副總裁Eric Jang稱，他們在辦公室專門放了一個全身鏡，這樣「模型」可以在鏡子中，認出自己。

NEO現在有了自我反思的能力，不過，自我意識還沒覺醒。

通過理解世界，並與之交互，1X「世界模型」可以生成高保真視頻，並在神經網絡中，重新規劃、模擬和評估。

這也是世界模型，之於機器人的重要性。

1X創始人兼CEO Bernt Bornich表示，首次證明了人形機器人數據，正顯著地推進Scaling Law。

谷歌DeepMind機器人高級研究員Ted Xiao表示，1X的「學習型」世界模型能夠隨著驚豔、物理交互數據不斷改進。

- 世界模型很可能是在多智能體環境中，實現可重複和可擴展評估的唯一前進的方向。（參加自動駕駛中世界模型評估成功案例）

- 基於2024年AI技術，比基於去年的技術更容易構建世界模型。

- 一旦世界模型足以用於評估，它們很可能已經至少完成了90%的訓練工作。

機器人「世界模型」來了！

直白講，世界模型就是一種計算機程序。

它能夠想象出，世界如何隨著智能體的行為而演變。

基於視頻生成和自動駕駛汽車世界模型研究，1X由此訓練出自家的世界模型，作為NEO的虛擬模擬器。

從相同的起始圖像序列出發，1X世界模型可以根據不同機器人的動作，預測多種可能的未來場景。

左：去左側的門；中：彈空氣吉他；右：去右側的門

那麼，具身機器人的存在，最重要的是能夠與物理世界交互。

而在萬千繁雜的世界中，如何有效交互就成為了難題。

世界模型，能夠幫助NEO完成精準地交互，比如剛體、物體掉落的效果、不完全可見物體（杯子）、可變形物體（窗簾、衣物）、鉸接物體（門、抽屜、椅子）。

它能夠將餐盤放入瀝水架子中。

它還可以拉開窗簾。

從抽屜拿出東西等等。

具身機器人難題——評估

另外，世界模型解決了構建通用機器人時，一個非常實際但常被忽視的挑戰：評估。

假設訓練機器人執行1000個獨特的任務，那麼很難判斷一個新模型是否真的在所有任務上，都比之前的模型有所改進。

更令人困擾的是，即便模型權重相同，但由於環境背景或環境光線的細微變化，性能可能在短短几天內下降。

研究人員訓練了一個機器人疊T恤的模型，性能在50天內逐漸下降。

而且，如果環境不斷持續變化，實驗的可重複性便成為難題。

尤其是，在家庭、辦公室這樣的環境中，去評估多任務系統，這一問題就會變得更加棘手。

基於這些因素，使得在真實世界中，開啟嚴謹的機器人研究變得異常困難。

當scaling數據、算力、模型規模時，AI系統能力將如何擴展的問題，可以通過精準測量進行預測。

Scaling Law已經成為ChatGPT這樣的通用AI系統，性能提升的有力支撐。

因此，如果機器人領域想要迎來屬於自己的「ChatGPT時刻」，必須首先建立起它的「Scaling Law」。

從原生數據中學習，預測未來場景

基於物理模擬的引擎，諸如Bullet、Mujoco、Isaac Sim、Drake，已成為快速測試機器人策略的合理方法。

而且，這些模擬器可以重置、重複使用，進而研究人員能夠仔細比較不同控制算法。

然而，這些模擬器主要是為「剛體動力學」設計的，並且需要大量人工數據收集。

那麼，如何讓模擬機器人打開一盒咖啡濾紙、用刀切水果、擰開一罐果醬，或與人類、其他AI智能體互動呢？

家庭環境中，常見的日常物品、寵物很難模擬，訓練機器人極度缺少真實世界的用例。

因此，在有限數量任務中，對機器人進行小規模真實/模擬評估，並不能準確預測其在真實世界中的表現。

也就是說，這樣訓練出的機器人，很難具備真實世界「通用泛化」能力。

1X研究團隊採取了全新的方法，來評估通過機器人：

直接從原生傳感器數據中學習模擬，並利用它在數百萬情境中，評估機器人策略。

這種「世界模型」方法的優勢在於，可以一鍵獲得真實世界所有複雜數據，而無需手動創建資產。

過去一年裡，1X團隊收集了超5000小時EVE人形機器人數據。

這些數據包括，機器人在家庭和辦公室環境中，執行各種移動操作任務，以及與人互動的場景。

然後，他們將視頻和動作數據結合，訓出一個世界模型。

這個模型非常強大，不僅能夠根據所觀察到的情況，執行動作，還能生成視頻，預測未來的場景畫面。

動作可控，「腦補」彈空氣吉他

1X世界模型能夠根據不同的動作指令，生成多樣化的輸出。

如下圖所示，展示了基於四種不同動作序列，生成的各種結果。這些動作序列，都是從相同的初始畫面幀開始。

與之前一樣，這些所展示的示例，都不包含在訓練數據中。

世界模型的主要價值在於，能夠模擬物體之間的交互。

在接下來的模擬生成中，研究人員為模型提供相同的初始場景，並設置了三組不同的抓取盒子的動作。

在每個模擬場景中，被抓取的盒子，會隨機械手運動而被提起和移動，而其他未被抓取盒子紋絲不動，保持原位。

即便沒有給出具體的動作指令，世界模型也能生成看起來合情合理的視頻。

比如說，它能自己在前行時，避開行人和障礙物，這種行為是很符合常理的。

模擬疊T恤，長期任務也在行

此外，1X還可以生成長視頻。

正如開頭所展示的例子，NEO模擬了一個完整的T恤摺疊演示。

值得一提的是，T恤等可變形物體，往往在「剛體模擬器」中難以實現。

當前存在的問題

不過，1X的世界模型同樣存在一些問題。

物體一致性

比如，模型在與物體交互的過程中，可能無法保持物體的形狀的和顏色一致性。

尤其是當物體被遮擋，或者以不理想角度呈現時，世界模型在生成視頻過程中，物體外觀可能會出現變形。

有時，物體甚至完全消失不見。

比如，在執行拿起紅色小球並放置在盤子上這一動作時，球在過程中莫名其妙地就消失了。

物理學定律

而且，它也不懂物理世界中的基本定律。

有時候，NEO能夠對物理屬性有自然的理解，比如鬆開機械手之後，勺子會掉落到桌子上。

但在很多情況下，生成的結果並沒有遵循物理法則，比如下面這個，盤子就直接懸在了空中。

這說明，世界模型並不理解所有物體，都受到豎直向下的重力作用。

自我認知

另外，研究人員讓AI機器人EVE走到鏡子前，觀察其是否會生成與鏡子中的相對應的行為。

沒想到，它在抬起另一隻手臂時，鏡子中沒有同步。

可見，現在1X模型沒有自我意識的表現。

參考資料：

https://x.com/ericjang11/status/1836096888178987455

https://x.com/1x_tech/status/1836094175630200978

本文來自微信公眾號“新智元”，編輯：桃子好睏，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

收藏

評論

分享

相關推薦

欲融資 65 億美元的 OpenAI 趁熱發佈 o1 模型，一文了解 10 個關鍵要點

貝萊德眼中的比特幣：風險和回報驅動因素與傳統資產截然不同

「新美聯儲通訊社」終極前瞻 9 月會議：情況複雜，首次降息幅度仍存疑