歡迎自從上一篇文章發布以來,新增的 458 位「不無聊」會員!點擊此處訂閱,加入260,170 位聰明好學的讀者行列:
嗨,朋友們👋,
週三快樂!
幾個月前,Pim DeWitte 和 Kent Rollins 邀請我去他們在紐約市的辦公室,向我展示他們在General Intuition公司正在研發的產品。我之前聽說過這家公司,因為他們宣布完成了高達 1.337 億美元的種子輪融資,也聽說過他們正在開發的產品類型——世界模型,但除此之外,我對他們了解甚少。
那天他們向我展示的模型——這些模型能夠透過分析帶有動作標籤的遊戲片段來預測近期未來——以及此後我透過多次交流和數十小時的研究所了解到的內容,徹底改變了我對模型能力的認知。我曾公開表示對邏輯學習模型(LLM)能否將我們帶向超級智慧持懷疑態度,但我認為世界模型(World Models)很有可能驅動出超越人類能力、與我們互補的機器,完成我們無法或不願完成的任務。
自那次會面以來,世界模型領域迅速升溫。李飛飛的World Labs融資10億美元,Yann LeCun的AMI融資10.3億美元。世界模式是本週NVIDIA GTC大會的焦點之一。但這個領域尚處於起步階段,各種計畫層出不窮,眾多天才都在探索競爭與合作並存的方案,讓人難以全面了解。
所以我邀請皮姆與我合作撰寫一篇關於世界模型的歷史、理論、發展和潛力的文章。他欣然同意,他和通用直覺團隊都非常慷慨地投入時間和智慧,幫助我快速掌握相關知識,以便我能夠幫助你們快速掌握相關知識。
我擁有世界上最酷的工作。在過去的幾個月裡,我有幸近距離見證了具身人工智慧的未來,即在夢境中訓練的模型和智能體,它們能夠指導機器在現實世界中為我們做事。
我很高興能與大家分享這項探索的成果——我認為這是目前最全面的世界模型指南。顯然,Pim 和 GI 團隊對建立世界模型的最佳方法有自己的見解,但他們細緻地分析了每種方法的優缺點(包括他們自己的方法),並且坦誠地承認未來尚不明朗,這一點給我留下了深刻的印象。
這個領域瞬息萬變,發展速度驚人。我希望這篇文章能幫助你更能理解和掌握不斷湧現的令人興奮的新資訊。
讓我們開始吧。
今天的「不無聊」節目由… Framer贊助播出
Framer賦予設計師超能力。
Framer是一款以設計為先、無需程式碼的網站建立工具,讓任何人都能在幾分鐘內建置出一個可用於生產環境的網站。無論您是從模板還是空白畫布開始,Framer 都能讓您完全掌控創作過程,無需任何編碼。您可以新增動畫、一鍵在地化,並與整個團隊即時協作。您甚至可以使用內建分析功能進行 A/B 測試和點擊追蹤。
造訪 Framer.com 即可免費啟用。使用優惠碼 NOTBORING 即可免費體驗 Framer Pro 一個月。
世界模型:計算不可計算之物
與皮姆·德威特合著的文章
“我昨晚本想睡覺,結果卻開始想像第二天可能會遇到的各種情況,以及我可能會如何應對。”
這是一種常見的體驗。身為人類,我們很容易進行想像,無論是複雜的體育場、潛在的浪漫情愫,還是激烈的討論。想像自己身處下一場曼聯比賽現場,並不比想像與一位相識多年的朋友交談更費力,儘管想像一場曼聯比賽需要模擬和建模成千上萬人的行為,而這對於當今的傳統計算機和遊戲引擎來說需要數年時間¹ 。
想像一下用程式碼來描述曼聯的比賽:任何時候,都可能有球迷拿出一面自製的旗幟。整個球場會開始唱起與這面旗幟相關的歌曲。但只有一部分人會跟著唱;其他人會帶著孩子一起跳躍,而一對老夫婦則靜靜地坐在那裡,思索著這是否會是他們最後一次一起看球,在靜謐中感受著每一秒。
世界是一個充滿變數的地方,未來總有出人意料的景象,但有些景象卻又在某種程度上可以預測。身為人類,我們幾乎可以用大致相同的努力和時間去設想所有這些未來。而計算機卻做不到。
難怪傳統運算難以應付這種複雜性。試想一下,要預測並編寫每一個動作的程式碼,以及所有這些動作之間的交互,這該有多麼困難。從數學角度來看,在傳統引擎中模擬N 個球迷至少是一個O(N)或O( N² ) 的問題。每個人、每面旗幟、每張椅子、每個球都必須進行明確計算——實際上,它們之間的交互作用也需要計算。
在機器人領域,無論現實世界的情況多麼複雜,機器都必須在相同的時間內做出反應;然而,在傳統電腦領域,模擬不同的情況所需的時間卻可能相差甚遠。這一直是機器人技術和具身人工智慧發展的主要瓶頸。
世界模型是解決問題的方案之一。
世界模型透過影片以及影片中人物的行為來學習預測這些動態變化。它們將動態且計算量龐大的場景(例如足球比賽等隨機的、依賴行為的群體行為)簡化為神經網路中單一的固定成本操作。
在世界模型中,整個體育場被模擬為神經網路的固定成本前向傳播過程。場景的複雜性不會導致推理過程中「引擎」的運行速度呈指數級下降,因為權重在訓練過程中已經吸收了世界的各種模式。
如何做到?行動。
行動起到了一種壓縮作用,用於預測正在展開的動態變化:它們包含在環境中展開未來狀態的信息,直到更多行動發生並為環境添加新的輸入。每個行動都攜帶著足夠的資訊來預測接下來會發生什麼,直到下一個行動更新了整個圖景。
這種基於動作的訓練方法使模型能夠進行互動式學習和規劃。如今,即使是最好的仿真引擎也難以實現這一點,而且計算成本也難以預測。動作幫助模型像我們一樣與世界互動。
每一天,你都會一再觀察、思考、決定、行動。這就是生活。在任何時刻,所有關於時空的資訊最終都會匯聚成你的行動。
正是這種運算不可計算事物的能力,讓我們相信世界模型能夠以當前模型架構無法企及的方式,推動具身人工智慧的發展。
你是否做過這樣的夢:你只能站在那裡,眼睜睜看著事情發生,卻無能為力?這就是視訊模型。
現實世界則不同。它會對你的行為或指示做出反應,並預測由此可能產生的所有結果,而不僅僅是最有可能或最有趣的下一幀畫面。
你是否曾經有過清醒夢,在夢中你可以塑造自己腦中生成的夢境故事?這就是世界模型。
更正式地說,雖然標準視訊模型是基於機率 P(x t+1 | x t ) 預測下一幀,但世界模型基於乾預P(s t+1 | s t , a t ) 預測下一個狀態。
在General Intuition ,我們相信(並且已經看到了一些早期跡象),世界模型是一種新型的、可能比 LLM 更強大的基礎模型,適用於需要深度空間和時間推理的環境,例如我們真實的世界。
世界模型——這些透過觀察世界及其中的各種行為來學習的系統——是一種全新的基礎模型。它們能夠計算以前無法計算的內容。
它們的重要性將遠遠超出目前任何人的認知,因為它們提供了一條通往通用智慧的途徑,而這僅靠語言和程式碼是無法實現的。畢竟,身為人類,我們的一生都在根據自身的經驗、觀察和學習採取行動。
稍作停頓。你可能會對這種說法感到困惑,即世界模型提供了一條通往通用智慧的途徑,而LLMs卻無法做到。這完全可以理解。
近來,世界模型備受關注。一直對法學碩士能否通往通用智能持懷疑態度的楊樂存(Yann LeCun)剛剛宣布,他已為AMI籌集了10.3億美元。李飛飛的世界實驗室(World Labs)也籌集了超過10億美元用於世界模型的研究。擁有科技界最接近「印鈔機」的GoogleDeepMind也對世界模型寄予厚望。但到目前為止,我們看到的只是酷炫的影片和3D世界模型。
語言學碩士可以引用莎士比亞的詩句,也能解決埃爾德什問題。而世界模型,似乎更像是通往元宇宙的途徑,而非通往通用智慧的途徑。
但世界模型尚未像法學碩士那樣受到追捧的部分原因是,它們的定義仍然不夠明確。
什麼是世界模型?我們之前已經說過,視訊模型不符合世界模型的定義。 3D空間模型也不符合。儘管如此,兩者都可能是通往世界模型的途徑。如今用來驅動機器人的模型是世界模型嗎?嚴格來說,並非如此,儘管有些模型是,而且即使是那些不是世界模型的模型,也與世界模型架構有一些共同點。
一如既往,炒作只會加劇混亂。 “我預測‘世界模型’將成為下一個流行語,”AMI Labs(一家名副其實的世界模型公司)的首席執行官亞歷山大·勒布倫告訴TechCrunch ,“六個月內,每家公司都會自稱世界模型來籌集資金。”
炒作只是其中很小的一部分。我們──以及所有在這個領域耕耘的人──都相信,世界模型是控制物理世界中機器的必經之路。我們對這條路的具體形式或許有所不同,但我們都堅信,未來將由世界模型引領。
「…很少人意識到這種轉變的影響有多深遠…」NVIDIA機器人業務總監兼傑出科學家Jim Fan最近表示。 「不幸的是,目前世界模型最受關注的應用場景是人工智慧視訊處理(以及即將到來的遊戲處理)。我完全有信心,2026年將是大型世界模型真正為機器人技術以及更廣泛的多模態人工智慧奠定基礎的第一年。”
今天,我們誠摯地歡迎您加入「極少數」真正理解這一轉變意義深遠的人的行列。我們將分享世界模型的發展歷程、該領域目前的現狀、各主要實驗室所採取方法的簡要說明,以及驅動通用直覺發展方向的信念。
是否跟隨我們,完全取決於你。你選擇吞下藍色藥丸,故事就此結束。你醒來後躺在床上,繼續相信你想相信的一切。你選擇吞下紅色藥丸……你將留在仙境,我們將帶你領略兔子洞有多深。
特工能在自己的夢境中學習嗎?
世界模型並非新概念,而是我們最古老的概念之一。自從人類具備思考自身在宇宙中的位置、探究我們存在的意義以來,我們就一直在思考,我們所處的現實是否只是一個模擬世界。
西元前380年,柏拉圖透過蘇格拉底提出了「洞穴寓言」 。想像一下,一群人生活在地下洞穴中,脖子被鎖鏈束縛,被迫盯著牆上的影子。這些人會把那些影子誤認為是現實,但實際上它們只是現實的影子。這就是柏拉圖的比喻。他暗示我們都被困在這個洞穴裡,脖子被鎖鏈束縛,誤將自己的感知當作了真實的現實。
八十年後,中國道家哲學家莊子在其著作《蝶夢》中也思考了類似的問題:
莊週曾夢見自己變成了一隻蝴蝶,翩翩飛舞,自在快樂,隨心所欲。他並不知道自己就是莊週。突然,他醒了過來,發現自己又變回了莊週,一個真實而清晰的莊週。但他卻不知道,究竟是夢見自己變成蝴蝶的莊週,還是夢見自己變成莊週的蝴蝶?莊周和蝴蝶之間,必然存在著某種區別!這就是所謂的物性變化。
隨著幾個世紀的流逝和科技的進步,科幻作家也加入了探索現實本質的漫長思想家行列。弗雷德里克·波爾1955年的《世界之下的隧道》、丹尼爾·F·加盧耶的《模擬世界3》 、斯坦尼斯瓦夫·萊姆的《我不再侍奉》、弗諾·文奇的《真名實姓》 、威廉·吉布森的《神經漫遊者》、尼爾·斯蒂芬森的《雪崩》……所有這些作品都以文字描繪了模擬世界。
1977 年,科幻傳奇人物菲利普·K ·迪克在法國梅斯的一次演講中自信地告訴聽眾:“我們生活在一個計算機編程的現實中,我們對此唯一的線索是,當某些變量發生變化時,我們的現實就會發生一些改變。”
你第一次接觸模擬技術可能是透過《駭客任務》。我們也是。 在《駭客任務》的最初劇本中,華卓斯基姊妹將矩陣設想為連接成神經網路的人類大腦共同產生的模擬世界。
克里斯多福諾蘭完全無視觀眾的困惑——甚至還樂在其中——於 2010 年推出了《全面啟動》 。夢中夢中夢。
諾蘭的核心前提是,夢境是一個可控制的空間,可以從中提取訊息,或者更重要的是,可以將訊息植入其中。
1990 年,慕尼黑工業大學的青年研究員 Jürgen Schmidhuber 出版了《使世界可區分》 。
該論文提出建構循環神經網路(RNN),該神經網路有兩個任務:首先,學習預測模擬世界中接下來會發生什麼;其次,使用該模擬世界來訓練智能體在其中行動。
這個智能體完全不需要與「真實」環境互動。它可以在模型內部學習,在夢境中學習。
隔年,因《苦澀的教訓》一書而聞名的理查德·薩頓提出了類似的想法。在他的著作《Dyna:學習、規劃與反應的整合架構》中,他認為學習、規劃與反應不應是彼此獨立的系統,而應統一於單一的架構中。這意味著,從技術上講,我們可以建立一個世界模型,在其中進行練習,並將所學應用到現實世界中。
這兩篇論文都極具遠見卓識。隨著該領域的進步,研究人員的設想最終得以實現,因此它們產生了深遠的影響。但就當時的時代而言,這兩篇論文幾乎就像科幻小說一樣。
1990年,全球運算能力比現在少了大約100兆到1千萬億倍。當時,全世界的總運算能力可能只有10到100吉浮點運算/秒(GFAFLOPS)。而光是2024年,就售出了數十澤浮點運算/秒(ZFLOPS,即10^22 FLOPS)的運算能力。 1990年,全球數位資料總量約為10拍位元組(PB),這個體積小到連我們現在單次訓練所需視訊資料的0.005%都不到。到了2026年,這個體積已經爆炸式增加2,200萬倍,達到221澤字節。
但科技不斷進步,最強大的夢想也不會消亡。
近三十年後,2018年3月,當時就職於Google大腦的David Ha和Schmidhuber發表了一篇題為《世界模型》的論文。 4
世界模型是V+M:它可以接收觀察結果並想像可能的未來。控制器是代理或策略:它選擇採取哪些行動。
這篇論文加入了幾個世紀以來思想實驗、小說和電影的探討。夢境可能是現實,現實也可能是夢境。但如果我們真的能在夢中行動呢?那會對現實造成什麼影響?
而且……成功了。智能體能夠解決它在現實中從未遇到的任務。夢境如此真實。
從計算機科學的角度來看,這令人震驚。但這真的那麼令人驚訝嗎?人類不就是這樣在世界上生存的嗎?
加州大學爾灣分校認知科學教授唐納德霍夫曼將這一觀點推向了極致。他認為,我們每個人都戴著“現實頭盔”,將量子世界的驚人複雜性簡化為一個用戶友好的介面。現實太過豐富,所以我們只能透過一種持續的清醒夢境來駕馭它。
這個兔子洞可以深到你想鑽多深都行。但無論深淺,最終都會指向世界模型。
Ha 和 Schmidhuber 證明,電腦或許能夠像我們一樣看待世界:創建模擬來根據行動預測未來狀態,根據這些預測採取行動,更新,並循環往復。
行動勝於言語。
語言是不夠的(程式碼也是)。
我們來玩個遊戲吧。
拍手五次。
現在,請不要真的拍手,而是用語言來描述拍手的動作。
它們在空間中的位置,它們彼此之間的相對位置,精確到皮秒。接觸點。聲音。你的雙手靠近、接觸、分開時的樣子。它們如何相互擠壓。你兩掌之間的空氣發生了什麼變化。拍手時你看到的景象。別忘了你的手臂。它們如何彎曲以配合拍手?記住,這一切也要精確到皮秒。你袖子上的布料有什麼反應?背景中發生了什麼事?你旁邊的人注意到你在拍手了嗎?他們的反應是什麼?你有沒有因為在會議中拍手而被解僱?當時你本來應該專心工作,卻在看一篇你不該看的文章,還按照文章的指示拍手?描述一下你老闆額頭上的青筋。它爆了嗎?
你不能這麼做,對吧?好了,別說了。我的意思已經表達清楚了。
語言是對現實的一種損失極大的壓縮。
語言當然很重要。它是我們溝通和協調的方式。猜謎遊戲就說明了,在交流思想時,語言比行動更有效率。語言學習者在這方面扮演重要角色。但僅僅依靠語言是不夠的。
那麼代碼呢?程式碼是一種非常精確的語言,它可以讓機器執行操作。
我請克勞德「幫我寫一個在真實環境下模擬雙手拍手五次的程式」。結果他做出了這個。看起來很痛苦。
人們相信,隨著規模的擴大,語言和程式碼將能夠解決所有時空智慧挑戰,並產生通用人工智慧(AGI)或超級人工智慧(ASI)。
有人認為,程式碼是解決許多現實世界智慧挑戰的關鍵,因為它能夠精確地指導所有物理形態。
我們並不認同這種觀點。基於程式碼的模擬遠非夢想的實現。它受制於規則,無法應對現實中隨機而複雜的各種情況。
在赫爾曼·黑塞的小說《玻璃珠遊戲》(Das Glasperlenspiel )中,讀者被引入卡斯塔利亞——一個致力於純粹思想的未來知識烏托邦。這部小說為黑塞贏得了1946年的諾貝爾文學獎。卡斯塔利亞的核心是一款精妙的遊戲,即書名中的“玻璃珠遊戲”,它將人類所有的知識綜合成一種單一的形式語言。玩家們像創作賦格曲一樣創作「遊戲」。一個回合可能將巴哈的康塔塔、一個數學證明,甚至是孔子的一段話連結起來。這款遊戲是終極的抽象:它將人類文化的全部濃縮成符號操作。
大型語言模式就是我們的卡斯塔利亞人。它們是精妙的符號操控者,能夠將人類所有的文本知識連結起來。它們可以討論物理學、創作詩歌、編寫程式碼,甚至解釋棒球規則。它們的確是人類歷史上最偉大的智力成就之一。
但它們完全侷限於表象的範疇。它們可以描述拍手,但它們自己卻無法拍手。它們可以談論重力,但它們對重力的理解遠不及蹣跚學步的幼兒。它們無法像人體一樣,透過成千上萬次的跌倒和踉蹌來學習「向下」的含義。
語言模型對下一個詞元的預測能力非常出色。唯一的問題是,詞元就像柏拉圖洞穴牆上的影子一樣,你無法透過程式碼模擬出逼真的體育場人群,就像你無法描述出那裡的景像一樣。
如果語言和程式碼這兩項人類最強大的發明都不足以代表我們的世界,那我們還剩下什麼呢?
答案是世界模型
世界模型為通往通用人工智慧(AGI)的道路提供了另一種途徑。它們提供了一條計算當今無法計算之物的路徑。它們從克內希特所追求的與現實的複雜接觸中汲取經驗。
世界模型提供了一種高效能進行非確定性計算的方法,並且可以運行在傳統計算限制下不可能進行的模擬。
真正的智慧必須來自對世界的觀察;來自對行為及其後果的理解;來自語言只能指向的事物。
什麼是世界模型?
更正式地說,世界模型是一個互動式預測模型,它模擬時空環境以回應各種行為。
LLM 預測句子中的下一個詞,而世界模型則根據當前狀態和控制輸入預測下一個狀態(即近期未來)。
更簡潔地說:語言學習模型學習語言結構,世界模型學習因果關係結構。
這是世界模型的一個簡單定義。它很準確,但不足以理解世界模型是如何運作的。要理解世界模型,你需要了解以下四點:
世界模型的作用
世界模型以計算的方式實現相同的功能。它接收觀測資料(通常是視訊幀,但也可以使用任何感官資料),建構環境狀態的壓縮內部表徵,並預測該狀態將如何響應動作而變化。
本質上,它是一個經過學習的物理引擎,但它並不依賴手寫的方程式。它不是從基本原理出發計算重力、碰撞和摩擦力,而是觀察了數十億次重力、碰撞和摩擦力的變化,並從中學習規律。
這使得世界模型成為建構智能體(即在環境中行動的人工智慧系統)的強大工具。世界模型可以從三個方面幫助智能體:
它們能夠進行更長期的規劃。智能體可以在採取行動之前「想像」不同行動的後果,就像棋手思考幾步棋一樣,只不過這裡的「棋盤」可以是任何環境或現實世界。
它們為智能體提供了豐富的世界表徵,供其學習行為。基於世界模型內部表徵訓練的智能體,學會了根據對行動至關重要的特徵來「看待」世界,而不是僅僅關注原始像素。
基於以上三點原因,世界模型的優點在於它們能夠實現泛化。如果能夠創造出對行為做出如同現實世界般響應的世界,就可以利用這些世界安全、經濟、高效地訓練具身智能體,使其能夠在任何虛擬世界或現實世界中行動。
需要明確的是,世界模型的核心問題在於:模擬環境是否足夠逼真,能夠用於訓練並將訓練成果遷移到現實世界。 或者更普遍地說,是否可以「在模擬器中進行預訓練」。越來越多的證據表明,答案是肯定的。
Ai2 ,即艾倫人工智慧研究所,是由已故微軟聯合創始人保羅艾倫創立並資助的非營利組織。它致力於開源研究和工具開發,包括最近發布的 MolmoBot,這是一個「完全在模擬環境中訓練的機器人開放模型套件」。
「我們的結果表明,模擬到現實的零次操作轉移是可能的,」他們在推特上寫道。
參與該計畫的普林斯頓大學教授兼GoogleDeepMind研究員Dhruv Shah表示:“在易於模擬的任務範圍內,純粹通過模擬訓練的策略優於使用數千小時真實數據訓練的SOTA VLA!”
這是一個相當驚人的發現。我們以及更廣泛的世界模型領域的一個重點是擴大易於模擬的任務範圍。
這就是 Ha 和 Schmidhuber 在 2018 年所證明的。它仍然是該領域的核心前景。
世界模型是如何建構的
世界模型仍處於發展初期。目前還沒有哪一種單一方法或組合方法被證明是最優的,這意味著通用世界模型的最終架構仍然是一個懸而未決的問題。然而,訓練過程中存在一些可重複使用的要素。
當模型透過互動進行學習時,同樣的結構也適用——之前、行動、之後——但數據是動態生成的,而不是預先收集的,行動來自模型本身正在發展的策略,而不是來自外部來源。
世界模型的核心目標保持不變:給定當前狀態和動作或指令,預測下一個狀態。它接收到幀t和動作a ,並嘗試產生狀態幀t+1。
因此,現代世界模型包含一個潛在空間:一種壓縮的、學習到的表徵,其中只保留了最基本的資訊。
視覺編碼器將每一幀壓縮成一個緊湊的向量(場景的數學指紋),模型學習預測下一個指紋——而不是4K幀中的每個像素——以響應動作。這就是計算效率的來源。
為了準確地模擬世界的演變,世界模型也必須學會表示所有可能的結果。這種結果的不確定性通常被稱為環境的隨機性。
世界模型必須學會應對它們尚不了解的事物(認知不確定性:例如,從未見過交通號誌的模型不會知道黃燈之後是紅燈)和本質上不可知的事物(偶然不確定性:隨機性,例如擲骰子5 )。
即使模型已經學習了所有關於環境行為的資訊(將其「認知」不確定性降至最低),接下來發生的事情幾乎總會存在一些固有的不確定性(「偶然」不確定性)。這與純粹的娛樂視訊模型截然不同,後者只需能夠預測世界狀態的常見演變即可表現良好。
如果使用簡單的預測方法(例如,使用均方誤差或 MSE 簡單訓練的模型)來預測汽車轉彎,模型可能會變得“模糊”,因為它會對所有可能的結果進行平均。汽車可能轉彎後留在左側車道,也可能併入右側車道。實際上,使誤差最小化的軌跡是不太可能發生的,即汽車保持在兩個車道中間。這就是模糊性所在,不同的模型對此的處理方式也不同。
擴散模型透過逐漸擴散到結果來避免這個問題,使模型能夠確定結果分佈的特定模式,對清晰、合理的未來進行採樣,而不是對所有可能性進行平均。
每個結果有多個標記的自回歸模型也能處理多模態;透過依序對標記進行取樣,它們確保未來的標記預測與先前的預測一致。
相較之下, JEPA 架構透過簡單地規避模糊問題來解決它。 JEPA 從不解碼回像素空間,從而很大程度上避免了明確地對模糊分佈進行建模。它運行在一個平均化影響較小的空間中,因為我們不期望這些模型預測幀,而是期望它們產生對下游任務有用的表示。
這個過程的最終結果取決於你的需求。如果你要建立一個可視化的世界模擬器——一個可以觀看或探索的裝置——你需要透過視覺解碼器將潛在的預測解碼回像素,從而產生對未來可能景象的想像影片。這正是GoogleDeepMind和World Labs的演示看起來逼真且令人印象深刻的原因。
訓練世界模型的方法有很多。我們很快就會介紹這些方法,並結合該領域近八年的發展歷程,探討它們是如何演變和相互發展的。
目前,請記住這一點:將觀察資料與導致這些觀察結果發生的行為結合,訓練世界模型來預測下一個狀態,訓練智能體來預測這些世界中的下一個行為。
為什麼行動是壓縮的終極形式
世界模型背後的一個關鍵見解是:行動是壓縮的最終形式。
想想當你決定向左邁步避開水坑時會發生什麼事。你的大腦會處理視覺場景(人行道、水坑、周圍的人、路沿、駛來的公車),預測近期情況(水坑不會移動,公車會通過,你身後的人會繼續走),評估各種選擇(向左邁步、向右邁步、跳躍、接受鞋子濕透的事實),然後選擇其中一種。
旁觀者無法看透你的內心,無法確切知道你在想什麼,也無法了解你的潛意識裡在處理什麼。他們不知道你是否疲憊,是否匆忙。他們不了解你的道德準則,也不知道你會如何解答電車難題。他們不需要知道這些。他們看到的只是你近乎瞬間完成的計算結果:向左走。
對我來說,那就是魔法。
當然,並非每個人都能做出正確的決定。快進視頻,你也能了解到後果。向左踏一步,就會踩進更大的水坑。向左踏一步,就會被車子剮蹭。往左走一步,就會把嬰兒從嬰兒車裡撞出來。經過數十億次的觀察、指示和行動,我們不僅學會了人類如何根據輸入做出反應,還學會了這些決定的後果。集體世界模型比任何個體都更聰明地行動。
讓我們把視角拉回個體身上。如果你能完美地重建一個人的觀察和行動軌跡,你就能獲得他們與現實互動的近乎完整的記錄。你會知道他們看到了什麼,以及他們對此做了什麼。世界模型正是學習這種映射關係。它將空間和時間壓縮成一個緊湊的表徵,然後利用行動來展開接下來發生的事情。這正是世界模型運算效率如此之高的原因。
這也是為什麼世界模型能夠處理傳統模擬無法處理的隨機性的原因。為了理解這一點,讓我們運用對世界模型工作原理的新理解,重新審視曼聯的比賽。
在傳統的模擬引擎中,每一種可能的行為都需要編寫程式碼。如果你想讓一千名足球迷對進球做出真實的反應,就需要為每種反應類型寫出規則。計算成本會隨著智能體的數量及其交互複雜性的增加而增加。
在世界模型中,成本固定為神經網路的一次迭代。隨機、複雜、充滿變數的人類現實已被融入學習到的權重中,並從模式訓練所使用的數百萬小時影片中吸收。該模型並未計算人群應該做什麼,而是觀察人群的實際行為,並利用這些資訊做出可能的預測。
這就是我所說的「世界模型計算不可計算之物」的意思。傳統計算是確定性的:已知輸入、已知規則、已知輸出。現實世界並非確定性,因此世界模型甚至不會嘗試將這些因素編碼進去。它們觀察、學習並執行,計算成本固定,無論場景多麼複雜。
世界模式與政策
在我們繼續深入探討之前,還有一點需要區分,這一點在關於世界模型的典型討論中常常被混淆。
世界模型是對環境的模擬;它接收行動並產生預測觀察結果;它向你展示如果你做某事將會發生什麼。
策略是智能體在特定環境中行動的大腦。它接收觀察結果(通常也包括指令),並產生行動;它決定要做什麼。
世界模式是夢想。政策是夢想家。夢想家行動,夢想回應。夢想回應,夢想家行動。
實際上,兩者之間的關係比這種區分所暗示的更為密切和錯綜複雜。近期研究探討了在世界模型基礎上訓練策略,或從一開始就將二者結合起來建構策略的方法。首先,我們需要世界模型的權重——該模型已經學會瞭如何預測接下來會發生什麼——然後,不再訓練模型來預測未來的框架或狀態,而是訓練它來預測未來的行動。
一個能夠預測世界的系統,也能更快學會如何在世界中行動。理解和行動並非兩種獨立且生硬拼湊的技能,而是同一種技能的不同表現。至少,我們的研究以及其他實驗室的研究都開始顯示這一點。
這意味著,如果你建立了一個足夠好的世界模型,你就可以更有效地訓練策略,使其在它生成的世界中採取行動。
這是該領域在很短時間內學到的眾多重要知識之一。事實證明,直覺和想像力是同一枚硬幣的兩面。
世界模型簡史
一方面,概括世界模型的現代發展史應該非常容易。畢竟,哈和施密德胡伯出版《世界模型》至今不過八年。
另一方面,短短八年間發生了翻天覆地的變化。在此期間,該領域經歷了四個重大變革:每次變革都促使該領域的研究重點轉向新的問題。本文重點介紹其中一些最重要的論文,而《世界新聞》的訂閱用戶可以在文章末尾找到完整的關鍵論文清單並下載。
Wave 0,即 1990-1991 年,是深度學習出現之前的時代。研究人員首次提出了智能體可以學習世界內部模型並將其用於預測和規劃的想法。他們提出並回答了這樣一個問題:世界模型會做什麼?
這是理查德·薩頓和Dyna 。這是尤爾根·施密德胡伯和《讓世界可微》 。在我們擁有運算能力、資料或架構之前,我們只有夢想,在夢境中等待現實追趕。
第一波調查(2018-2019 年)提出的問題是: “這真的可行嗎?”
基於Ha和Schmidhuber的研究,第一個範式是使用視訊自編碼器(VAE)壓縮幀,以循環神經網路(RNN)模擬動態,並在生成的夢境中訓練策略。也就是說:壓縮你所看到的畫面,預測接下來會發生什麼,並訓練智能體在模擬環境中行動。
當時的問題是,在想像(夢境)中進行學習是否可行。研究人員嘗試使用小型模型和簡單的環境來驗證概念,從而找到答案。毫不誇張地說, 下一個重大突破最初看起來像個玩具。 Atari的模型為基礎的強化學習引入了 Atari 100k 基準測試:SimPLe 演算法能否僅透過 10 萬個真實環境步驟(約兩小時的遊戲時間)來學習 Atari 遊戲。
答案是肯定的。 SimPLe 學會了玩 26 款 Atari 遊戲,並在樣本效率(即達到給定分數所需的步驟數)方面擊敗了競爭對手的模型。
這正是第二階段(2020-2022 年)的核心問題: “世界模型能否與人類的表現相匹配?”
由GoogleDeepMind的Danijar Hafner開發的DreamerV2迅速找到了答案。他們使用了一種帶有離散潛在表徵的循環狀態空間模型(RSSM) ——該系統維護著一個壓縮的、運行中的世界記憶,並隨著每次觀察進行更新。 DreamerV2成為第一款在包含55款遊戲的Atari基準測試6中達到人類等級的世界模型智能體。它完全是在想像中,使用單一GPU進行訓練的。
同年,DeepMind 的另一個團隊在《自然》雜誌上發表了題為《透過學習模型進行規劃來精通 Atari、圍棋、國際象棋和將棋》的論文。論文描述了他們的MuZero模型,該模型也贏得了 Atari 遊戲(以及圍棋等其他遊戲),但它採用的理念幾乎與上述論文完全相反。
DreamerV2 產生可觀察的夢境環境並在其中進行訓練,而MuZero 則從未生成任何可觀察的東西,完全在它自己發明的抽象潛在表示中進行規劃,並且做得很好。
事實上,它的表現非常出色,甚至超越了專門針對圍棋的模型。 2016年,DeepMind的AlphaGo以4比1擊敗了人類圍棋冠軍李世石。 AlphaGo的訓練資料庫包含大量人類專家對局以及自我對弈的數據,並且圍棋規則被硬編碼到模型中。第二年, AlphaGoZero完全依賴自我對弈進行訓練,沒有使用任何人類對局數據,只有圍棋規則,卻以100比0的比分擊敗了AlphaGo。在同一年, AlphaGoZero的泛化能力得到了進一步提升。 它也嘗試過其他遊戲,例如國際象棋和將棋,並在幾個小時內就掌握了這些遊戲的精髓。然後在2019年(預印本), MuZero完全透過觀察和結果,從零開始學習了所有內容,包括規則、遊戲動態和價值函數。它在圍棋、西洋棋和將棋(AlphaZero了解這些遊戲的規則)上與AlphaZero勢均力敵,同時還能泛化到57款雅達利遊戲中(在這些遊戲中,「規則」甚至都不是一個明確定義的概念)。
每推出一個新模型,先前人類預先設定的規則、策略、部位價值等都會被移除。模型轉而從零開始學習。 MuZero 是這一發展歷程的終點,它完全是學習而來的。
隨著 MuZero 的成功,該領域現在出現了兩種對立的思想流派:產生可觀察未來的生成世界模型,以及在抽象空間中進行預測的潛在世界模型,即使它們當時還沒有被稱為「潛在」世界模型。
在潛在層面,2022年,Yann LeCun以Meta和紐約大學庫朗數學研究所雙重身份發表了一篇影響深遠的立場文件,提出了一種與生成模型截然不同的理念,更像是《MuZero:邁向自主機器智能之路》 。他新成立的世界模型公司AMI正是以此文件命名。
LeCun 的聯合嵌入預測架構 (JEPA)反對完全產生像素。與 MuZero 類似,JEPA 不是預測世界的外觀,而是預測其意義。它預測未來狀態的抽象表示,並有意捨棄不可預測的視覺細節。
同年,在生成式建模領域,由Vincent Micheli和Eloi Alonso(General Intuition未來的兩位共同創辦人)開發的IRIS (2022)將世界建模重新定義為基於已學習的圖像標記詞彙的語言建模。 IRIS並沒有採用循環狀態空間模型,而是使用了一種類似GPT的自回歸Transformer模型來處理離散的視覺標記。簡而言之,IRIS借鑒了語言模型的機制並將其應用於世界建模。
IRIS 的出現填補了以往的許多空白。 IRIS 世界模型其實是一種語言模型,但它的詞彙表是圖像和動作,而非文字。這使得語言模型的可擴展性直接應用於世界建模:高效的注意力機制、可擴展性規律以及所有為大型語言模型構建的工程基礎設施,現在都可以應用於物理世界的學習。
Dreamer 的缺點在於它無法對下一個潛在狀態的聯合規律進行建模(例如,無法處理多模態資料),而 IRIS 則將下一個潛在狀態表示為一系列離散的標記,並進行自回歸預測,這意味著它現在能夠預測多種結果。雖然 Dreamer 透過使用比人類多得多的數據擊敗了人類,但 IRIS 是第一個在相同遊戲資料量(兩小時)下擊敗人類的想像學習方法。





















