世界模型：計算不可計算之物

Not Boring by Packy McCormick

03-19

本文為機器翻譯

展示原文

歡迎自從上一篇文章發布以來，新增的 458 位「不無聊」會員！點擊此處訂閱，加入260,170 位聰明好學的讀者行列：

立即訂閱

嗨，朋友們👋，

週三快樂！

幾個月前，Pim DeWitte 和 Kent Rollins 邀請我去他們在紐約市的辦公室，向我展示他們在General Intuition公司正在研發的產品。我之前聽說過這家公司，因為他們宣布完成了高達 1.337 億美元的種子輪融資，也聽說過他們正在開發的產品類型——世界模型，但除此之外，我對他們了解甚少。

那天他們向我展示的模型——這些模型能夠透過分析帶有動作標籤的遊戲片段來預測近期未來——以及此後我透過多次交流和數十小時的研究所了解到的內容，徹底改變了我對模型能力的認知。我曾公開表示對邏輯學習模型（LLM）能否將我們帶向超級智慧持懷疑態度，但我認為世界模型（World Models）很有可能驅動出超越人類能力、與我們互補的機器，完成我們無法或不願完成的任務。

自那次會面以來，世界模型領域迅速升溫。李飛飛的World Labs融資10億美元，Yann LeCun的AMI融資10.3億美元。世界模式是本週NVIDIA GTC大會的焦點之一。但這個領域尚處於起步階段，各種計畫層出不窮，眾多天才都在探索競爭與合作並存的方案，讓人難以全面了解。

所以我邀請皮姆與我合作撰寫一篇關於世界模型的歷史、理論、發展和潛力的文章。他欣然同意，他和通用直覺團隊都非常慷慨地投入時間和智慧，幫助我快速掌握相關知識，以便我能夠幫助你們快速掌握相關知識。

我擁有世界上最酷的工作。在過去的幾個月裡，我有幸近距離見證了具身人工智慧的未來，即在夢境中訓練的模型和智能體，它們能夠指導機器在現實世界中為我們做事。

我很高興能與大家分享這項探索的成果——我認為這是目前最全面的世界模型指南。顯然，Pim 和 GI 團隊對建立世界模型的最佳方法有自己的見解，但他們細緻地分析了每種方法的優缺點（包括他們自己的方法），並且坦誠地承認未來尚不明朗，這一點給我留下了深刻的印象。

這個領域瞬息萬變，發展速度驚人。我希望這篇文章能幫助你更能理解和掌握不斷湧現的令人興奮的新資訊。

讓我們開始吧。

今天的「不無聊」節目由… Framer贊助播出

Framer賦予設計師超能力。

Framer是一款以設計為先、無需程式碼的網站建立工具，讓任何人都能在幾分鐘內建置出一個可用於生產環境的網站。無論您是從模板還是空白畫布開始，Framer 都能讓您完全掌控創作過程，無需任何編碼。您可以新增動畫、一鍵在地化，並與整個團隊即時協作。您甚至可以使用內建分析功能進行 A/B 測試和點擊追蹤。

造訪 Framer.com 即可免費啟用。使用優惠碼 NOTBORING 即可免費體驗 Framer Pro 一個月。

直接用 Framer 發布

世界模型：計算不可計算之物

與皮姆·德威特合著的文章

“我昨晚本想睡覺，結果卻開始想像第二天可能會遇到的各種情況，以及我可能會如何應對。”

這是一種常見的體驗。身為人類，我們很容易進行想像，無論是複雜的體育場、潛在的浪漫情愫，還是激烈的討論。想像自己身處下一場曼聯比賽現場，並不比想像與一位相識多年的朋友交談更費力，儘管想像一場曼聯比賽需要模擬和建模成千上萬人的行為，而這對於當今的傳統計算機和遊戲引擎來說需要數年時間 ¹ 。

想像一下用程式碼來描述曼聯的比賽：任何時候，都可能有球迷拿出一面自製的旗幟。整個球場會開始唱起與這面旗幟相關的歌曲。但只有一部分人會跟著唱；其他人會帶著孩子一起跳躍，而一對老夫婦則靜靜地坐在那裡，思索著這是否會是他們最後一次一起看球，在靜謐中感受著每一秒。

世界是一個充滿變數的地方，未來總有出人意料的景象，但有些景象卻又在某種程度上可以預測。身為人類，我們幾乎可以用大致相同的努力和時間去設想所有這些未來。而計算機卻做不到。

難怪傳統運算難以應付這種複雜性。試想一下，要預測並編寫每一個動作的程式碼，以及所有這些動作之間的交互，這該有多麼困難。從數學角度來看，在傳統引擎中模擬N 個球迷至少是一個O(N)或O( ^N² ) 的問題。每個人、每面旗幟、每張椅子、每個球都必須進行明確計算——實際上，它們之間的交互作用也需要計算。

在機器人領域，無論現實世界的情況多麼複雜，機器都必須在相同的時間內做出反應；然而，在傳統電腦領域，模擬不同的情況所需的時間卻可能相差甚遠。這一直是機器人技術和具身人工智慧發展的主要瓶頸。

世界模型是解決問題的方案之一。

世界模型透過影片以及影片中人物的行為來學習預測這些動態變化。它們將動態且計算量龐大的場景（例如足球比賽等隨機的、依賴行為的群體行為）簡化為神經網路中單一的固定成本操作。

在世界模型中，整個體育場被模擬為神經網路的固定成本前向傳播過程。場景的複雜性不會導致推理過程中「引擎」的運行速度呈指數級下降，因為權重在訓練過程中已經吸收了世界的各種模式。

如何做到？行動。

行動起到了一種壓縮作用，用於預測正在展開的動態變化：它們包含在環境中展開未來狀態的信息，直到更多行動發生並為環境添加新的輸入。每個行動都攜帶著足夠的資訊來預測接下來會發生什麼，直到下一個行動更新了整個圖景。

這種基於動作的訓練方法使模型能夠進行互動式學習和規劃。如今，即使是最好的仿真引擎也難以實現這一點，而且計算成本也難以預測。動作幫助模型像我們一樣與世界互動。

每一天，你都會一再觀察、思考、決定、行動。這就是生活。在任何時刻，所有關於時空的資訊最終都會匯聚成你的行動。

對計算機而言，動作就像是繞過模擬成本的作弊碼。如果人腦的效率遠高於一流的邏輯線性模型（LLM），那麼我們只需觀察人類如何應對環境中無數變量，就能幾乎免費地完成所有計算。這為我們提供了一種高效能進行非確定性計算的方法，並能創建在傳統計算限制下無法實現的模擬。

正是這種運算不可計算事物的能力，讓我們相信世界模型能夠以當前模型架構無法企及的方式，推動具身人工智慧的發展。

把模型想像成夢想。

你是否做過這樣的夢：你只能站在那裡，眼睜睜看著事情發生，卻無能為力？這就是視訊模型。

現實世界則不同。它會對你的行為或指示做出反應，並預測由此可能產生的所有結果，而不僅僅是最有可能或最有趣的下一幀畫面。

你是否曾經有過清醒夢，在夢中你可以塑造自己腦中生成的夢境故事？這就是世界模型。

我寫了一個對比程序，你可以在這裡試用。

更正式地說，雖然標準視訊模型是基於機率 P(x _t+1 | x _t ) 預測下一幀，但世界模型基於乾預P(s _t+1 | s _t , a _t ) 預測下一個狀態。

_t _，即時間 t 的行為，才是關鍵。

在General Intuition ，我們相信（並且已經看到了一些早期跡象），世界模型是一種新型的、可能比 LLM 更強大的基礎模型，適用於需要深度空間和時間推理的環境，例如我們真實的世界。

世界模型——這些透過觀察世界及其中的各種行為來學習的系統——是一種全新的基礎模型。它們能夠計算以前無法計算的內容。

它們的重要性將遠遠超出目前任何人的認知，因為它們提供了一條通往通用智慧的途徑，而這僅靠語言和程式碼是無法實現的。畢竟，身為人類，我們的一生都在根據自身的經驗、觀察和學習採取行動。

稍作停頓。你可能會對這種說法感到困惑，即世界模型提供了一條通往通用智慧的途徑，而LLMs卻無法做到。這完全可以理解。

近來，世界模型備受關注。一直對法學碩士能否通往通用智能持懷疑態度的楊樂存(Yann LeCun)剛剛宣布，他已為AMI籌集了10.3億美元。李飛飛的世界實驗室(World Labs)也籌集了超過10億美元用於世界模型的研究。擁有科技界最接近「印鈔機」的GoogleDeepMind也對世界模型寄予厚望。但到目前為止，我們看到的只是酷炫的影片和3D世界模型。

語言學碩士可以引用莎士比亞的詩句，也能解決埃爾德什問題。而世界模型，似乎更像是通往元宇宙的途徑，而非通往通用智慧的途徑。

但世界模型尚未像法學碩士那樣受到追捧的部分原因是，它們的定義仍然不夠明確。

什麼是世界模型？我們之前已經說過，視訊模型不符合世界模型的定義。 3D空間模型也不符合。儘管如此，兩者都可能是通往世界模型的途徑。如今用來驅動機器人的模型是世界模型嗎？嚴格來說，並非如此，儘管有些模型是，而且即使是那些不是世界模型的模型，也與世界模型架構有一些共同點。

一如既往，炒作只會加劇混亂。 “我預測‘世界模型’將成為下一個流行語，”AMI Labs（一家名副其實的世界模型公司）的首席執行官亞歷山大·勒布倫告訴TechCrunch ，“六個月內，每家公司都會自稱世界模型來籌集資金。”

炒作只是其中很小的一部分。我們──以及所有在這個領域耕耘的人──都相信，世界模型是控制物理世界中機器的必經之路。我們對這條路的具體形式或許有所不同，但我們都堅信，未來將由世界模型引領。

「…很少人意識到這種轉變的影響有多深遠…」NVIDIA機器人業務總監兼傑出科學家Jim Fan最近表示。「不幸的是，目前世界模型最受關注的應用場景是人工智慧視訊處理（以及即將到來的遊戲處理）。我完全有信心，2026年將是大型世界模型真正為機器人技術以及更廣泛的多模態人工智慧奠定基礎的第一年。”

今天，我們誠摯地歡迎您加入「極少數」真正理解這一轉變意義深遠的人的行列。我們將分享世界模型的發展歷程、該領域目前的現狀、各主要實驗室所採取方法的簡要說明，以及驅動通用直覺發展方向的信念。

是否跟隨我們，完全取決於你。你選擇吞下藍色藥丸，故事就此結束。你醒來後躺在床上，繼續相信你想相信的一切。你選擇吞下紅色藥丸……你將留在仙境，我們將帶你領略兔子洞有多深。

例如…如何確定自己不是在世界模型中運行的代理人？

特工能在自己的夢境中學習嗎？

醒醒，尼奧。

世界模型並非新概念，而是我們最古老的概念之一。自從人類具備思考自身在宇宙中的位置、探究我們存在的意義以來，我們就一直在思考，我們所處的現實是否只是一個模擬世界。

西元前380年，柏拉圖透過蘇格拉底提出了「洞穴寓言」 。想像一下，一群人生活在地下洞穴中，脖子被鎖鏈束縛，被迫盯著牆上的影子。這些人會把那些影子誤認為是現實，但實際上它們只是現實的影子。這就是柏拉圖的比喻。他暗示我們都被困在這個洞穴裡，脖子被鎖鏈束縛，誤將自己的感知當作了真實的現實。

八十年後，中國道家哲學家莊子在其著作《蝶夢》中也思考了類似的問題：

莊週曾夢見自己變成了一隻蝴蝶，翩翩飛舞，自在快樂，隨心所欲。他並不知道自己就是莊週。突然，他醒了過來，發現自己又變回了莊週，一個真實而清晰的莊週。但他卻不知道，究竟是夢見自己變成蝴蝶的莊週，還是夢見自己變成莊週的蝴蝶？莊周和蝴蝶之間，必然存在著某種區別！這就是所謂的物性變化。

隨著幾個世紀的流逝和科技的進步，科幻作家也加入了探索現實本質的漫長思想家行列。弗雷德里克·波爾1955年的《世界之下的隧道》、丹尼爾·F·加盧耶的《模擬世界3》 、斯坦尼斯瓦夫·萊姆的《我不再侍奉》、弗諾·文奇的《真名實姓》 、威廉·吉布森的《神經漫遊者》、尼爾·斯蒂芬森的《雪崩》……所有這些作品都以文字描繪了模擬世界。

1977 年，科幻傳奇人物菲利普·K ·迪克在法國梅斯的一次演講中自信地告訴聽眾：“我們生活在一個計算機編程的現實中，我們對此唯一的線索是，當某些變量發生變化時，我們的現實就會發生一些改變。”

你第一次接觸模擬技術可能是透過《駭客任務》。我們也是。在《駭客任務》的最初劇本中，華卓斯基姊妹將矩陣設想為連接成神經網路的人類大腦共同產生的模擬世界。

製片廠認為「人即電腦」的概念對大眾市場來說過於複雜，因此他們做出了一個在熱力學上頗具爭議的決定：將人類變成驅動模擬世界的電池。這或許是一個正確的商業決策。《駭客任務》系列電影全球票房接近20億美元。更重要的是，它讓大眾接觸到了這樣一個概念：一個模擬世界與「真實」世界幾乎無法區分。

難怪這種想法會如此深入人心。它的確有點怪異，但卻出奇地難以證偽。如果觀察結果相同，行動也相同，那麼計算過程也相同。如果你看到的和你做的都相同，那麼你身處模擬世界還是現實世界就無關緊要了。你走在真實的街道上還是模擬的街道上也無關緊要。你的大腦處理這兩種情況的方式完全相同。尼奧直到墨菲斯喚醒他之前，都不知道自己身處在矩陣之中。

克里斯多福諾蘭完全無視觀眾的困惑——甚至還樂在其中——於 2010 年推出了《全面啟動》。夢中夢中夢。

諾蘭的核心前提是，夢境是一個可控制的空間，可以從中提取訊息，或者更重要的是，可以將訊息植入其中。

但這都只是科幻小說，對吧？

1990 年，慕尼黑工業大學的青年研究員 Jürgen Schmidhuber 出版了《使世界可區分》 。

該論文提出建構循環神經網路（RNN），該神經網路有兩個任務：首先，學習預測模擬世界中接下來會發生什麼；其次，使用該模擬世界來訓練智能體在其中行動。

這個智能體完全不需要與「真實」環境互動。它可以在模型內部學習，在夢境中學習。

隔年，因《苦澀的教訓》一書而聞名的理查德·薩頓提出了類似的想法。在他的著作《Dyna：學習、規劃與反應的整合架構》中，他認為學習、規劃與反應不應是彼此獨立的系統，而應統一於單一的架構中。這意味著，從技術上講，我們可以建立一個世界模型，在其中進行練習，並將所學應用到現實世界中。

這兩篇論文都極具遠見卓識。隨著該領域的進步，研究人員的設想最終得以實現，因此它們產生了深遠的影響。但就當時的時代而言，這兩篇論文幾乎就像科幻小說一樣。

1990年，全球運算能力比現在少了大約100兆到1千萬億倍。當時，全世界的總運算能力可能只有10到100吉浮點運算/秒（GFAFLOPS）。而光是2024年，就售出了數十澤浮點運算/秒（ZFLOPS，即10^22 FLOPS）的運算能力。 1990年，全球數位資料總量約為10拍位元組（PB），這個體積小到連我們現在單次訓練所需視訊資料的0.005%都不到。到了2026年，這個體積已經爆炸式增加2,200萬倍，達到221澤字節。

但科技不斷進步，最強大的夢想也不會消亡。

近三十年後，2018年3月，當時就職於Google大腦的David Ha和Schmidhuber發表了一篇題為《世界模型》的論文。 4

論文提出了這樣的問題：智能體能否在自己的夢境中學習？

為了回答他們自己的問題，Ha 和 Schmidhuber 構建了一個虛構的系統，該系統由三個組件構成：視覺模型 (V) ，它將原始像素觀測值壓縮成緊湊的表示；記憶模型 (M) ；循環神經網絡，它學習預測接下來會發生什麼；以及微型控制器 (C) ，它僅根據 V 和 M 的輸出來決定做什麼。

世界模型是V+M：它可以接收觀察結果並想像可能的未來。控制器是代理或策略：它選擇採取哪些行動。

這篇論文加入了幾個世紀以來思想實驗、小說和電影的探討。夢境可能是現實，現實也可能是夢境。但如果我們真的能在夢中行動呢？那會對現實造成什麼影響？

Ha 和 Schmidhuber 利用賽車遊戲和第一人稱射擊遊戲的觀察數據訓練了他們的世界模型。這個世界模型生成了新的數位世界。然後，他們讓智能體完全在世界模型生成的幻覺世界中練習。之後，他們將學習到的策略遷移回實際環境。

而且……成功了。智能體能夠解決它在現實中從未遇到的任務。夢境如此真實。

從計算機科學的角度來看，這令人震驚。但這真的那麼令人驚訝嗎？人類不就是這樣在世界上生存的嗎？

哈和施密德胡伯指出，人類的大腦中會不斷運行「世界模型」。棒球選手面對時速100英里的快速球，必須在球的位置視覺訊號到達大腦之前就決定如何揮棒。之所以並非每次擊球都會被三振出局，是因為擊球手並非根據現實情況做出反應，而是根據大腦「內部世界模型」對球的預測做出反應。

加州大學爾灣分校認知科學教授唐納德霍夫曼將這一觀點推向了極致。他認為，我們每個人都戴著“現實頭盔”，將量子世界的驚人複雜性簡化為一個用戶友好的介面。現實太過豐富，所以我們只能透過一種持續的清醒夢境來駕馭它。

這個兔子洞可以深到你想鑽多深都行。但無論深淺，最終都會指向世界模型。

Ha 和 Schmidhuber 證明，電腦或許能夠像我們一樣看待世界：創建模擬來根據行動預測未來狀態，根據這些預測採取行動，更新，並循環往復。

行動勝於言語。

語言是不夠的（程式碼也是）。

我們來玩個遊戲吧。

拍手五次。

現在，請不要真的拍手，而是用語言來描述拍手的動作。

它們在空間中的位置，它們彼此之間的相對位置，精確到皮秒。接觸點。聲音。你的雙手靠近、接觸、分開時的樣子。它們如何相互擠壓。你兩掌之間的空氣發生了什麼變化。拍手時你看到的景象。別忘了你的手臂。它們如何彎曲以配合拍手？記住，這一切也要精確到皮秒。你袖子上的布料有什麼反應？背景中發生了什麼事？你旁邊的人注意到你在拍手了嗎？他們的反應是什麼？你有沒有因為在會議中拍手而被解僱？當時你本來應該專心工作，卻在看一篇你不該看的文章，還按照文章的指示拍手？描述一下你老闆額頭上的青筋。它爆了嗎？

你不能這麼做，對吧？好了，別說了。我的意思已經表達清楚了。

語言是對現實的一種損失極大的壓縮。

語言當然很重要。它是我們溝通和協調的方式。猜謎遊戲就說明了，在交流思想時，語言比行動更有效率。語言學習者在這方面扮演重要角色。但僅僅依靠語言是不夠的。

那麼代碼呢？程式碼是一種非常精確的語言，它可以讓機器執行操作。

我請克勞德「幫我寫一個在真實環境下模擬雙手拍手五次的程式」。結果他做出了這個。看起來很痛苦。

人們相信，隨著規模的擴大，語言和程式碼將能夠解決所有時空智慧挑戰，並產生通用人工智慧（AGI）或超級人工智慧（ASI）。

有人認為，程式碼是解決許多現實世界智慧挑戰的關鍵，因為它能夠精確地指導所有物理形態。

我們並不認同這種觀點。基於程式碼的模擬遠非夢想的實現。它受制於規則，無法應對現實中隨機而複雜的各種情況。

要了解世界，就必須與世界互動。

在赫爾曼·黑塞的小說《玻璃珠遊戲》（Das Glasperlenspiel ）中，讀者被引入卡斯塔利亞——一個致力於純粹思想的未來知識烏托邦。這部小說為黑塞贏得了1946年的諾貝爾文學獎。卡斯塔利亞的核心是一款精妙的遊戲，即書名中的“玻璃珠遊戲”，它將人類所有的知識綜合成一種單一的形式語言。玩家們像創作賦格曲一樣創作「遊戲」。一個回合可能將巴哈的康塔塔、一個數學證明，甚至是孔子的一段話連結起來。這款遊戲是終極的抽象：它將人類文化的全部濃縮成符號操作。

主角約瑟夫·克內希特一路晉升，最後成為卡斯塔利亞的最高統治者——遊戲大師。但他逐漸感到幻滅。遊戲本身雖然精美絕倫，卻也空洞乏味。卡斯塔利亞的知識分子沉溺於抽象思維，與現實世界脫節。他們能夠以非凡的優雅描繪現實，卻無法在現實中行動。

克內希特最後決定離開卡斯塔利亞，成為一名普通的家庭教師。他選擇了紛繁複雜、充滿現實感且變幻莫測的世界，而非完美無瑕的象徵世界。他畢生致力於遊戲，而掌握遊戲之道在於超越語言的抽象層面，更接近世界建模。但這還不夠。單憑符號，脫離現實，終究會枯竭。

大型語言模式就是我們的卡斯塔利亞人。它們是精妙的符號操控者，能夠將人類所有的文本知識連結起來。它們可以討論物理學、創作詩歌、編寫程式碼，甚至解釋棒球規則。它們的確是人類歷史上最偉大的智力成就之一。

但它們完全侷限於表象的範疇。它們可以描述拍手，但它們自己卻無法拍手。它們可以談論重力，但它們對重力的理解遠不及蹣跚學步的幼兒。它們無法像人體一樣，透過成千上萬次的跌倒和踉蹌來學習「向下」的含義。

語言模型對下一個詞元的預測能力非常出色。唯一的問題是，詞元就像柏拉圖洞穴牆上的影子一樣，你無法透過程式碼模擬出逼真的體育場人群，就像你無法描述出那裡的景像一樣。

現實世界是──或者說曾經是──不可計算的。

如果語言和程式碼這兩項人類最強大的發明都不足以代表我們的世界，那我們還剩下什麼呢？

Ai2 ，即艾倫人工智慧研究所，是由已故微軟聯合創始人保羅艾倫創立並資助的非營利組織。它致力於開源研究和工具開發，包括最近發布的 MolmoBot，這是一個「完全在模擬環境中訓練的機器人開放模型套件」。

「我們的結果表明，模擬到現實的零次操作轉移是可能的，」他們在推特上寫道。

參與該計畫的普林斯頓大學教授兼GoogleDeepMind研究員Dhruv Shah表示：“在易於模擬的任務範圍內，純粹通過模擬訓練的策略優於使用數千小時真實數據訓練的SOTA VLA！”

這是一個相當驚人的發現。我們以及更廣泛的世界模型領域的一個重點是擴大易於模擬的任務範圍。

工作原理如下。首先，世界模型會建構逼真的環境和未來狀態，理想情況下，這些環境和狀態能夠像它們接受訓練的真實世界和虛擬世界一樣，對操作或指令做出回應。接下來，智能體會被放入生成的虛擬世界中進行訓練。然後，智能體會被帶回真實環境，並接受訓練成果的測試。

這就是 Ha 和 Schmidhuber 在 2018 年所證明的。它仍然是該領域的核心前景。

世界模型是如何建構的

世界模型仍處於發展初期。目前還沒有哪一種單一方法或組合方法被證明是最優的，這意味著通用世界模型的最終架構仍然是一個懸而未決的問題。然而，訓練過程中存在一些可重複使用的要素。

首先是數據；大量的觀測數據。通常，觀測結果會與產生這些觀測結果的行為相關聯。這種關聯可以透過多種方式實現。觀測資料（通常是影片）可以預先收集，而行為則可以與觀測結果一同記錄，或事後透過其他模型進行推論。此外，模型還可以透過自身採取行動進行學習，透過與環境的直接互動產生自身的觀測資料和行為資料。

當訓練資料是觀測資料或影片時，原始幀就相當於對環境隨時間演變過程的觀測。理想情況下，這些影片都帶有生成它們的動作標籤（要么是因為它們被一起錄製，要么是由單獨的AI模型推斷出來的）。這些動作提供了因果關係：是什麼人做了什麼導致了環境的改變。例如，一段遊戲片段中，玩家左轉，鏡頭搖攝展現出一條走廊；一段駕駛錄影中，方向盤轉動，汽車沿著彎道行駛；一段遠程操作會話中，機械臂伸手，杯子移動。在每種情況下，模型都能看到「之前」、「動作」和「之後」。

當模型透過互動進行學習時，同樣的結構也適用——之前、行動、之後——但數據是動態生成的，而不是預先收集的，行動來自模型本身正在發展的策略，而不是來自外部來源。

世界模型的核心目標保持不變：給定當前狀態和動作或指令，預測下一個狀態。它接收到幀t和動作a ，並嘗試產生狀態幀t+1。

但預測所有事物的原始像素世界既耗時又浪費資源。視訊畫面中的大部分內容在瞬間之間都不會改變；牆壁的位置保持不變，天空依然是天空。而且畫面內的大部分細節都是冗餘的，例如天空的顏色、牆壁的紋理等等。它們可以用更簡潔的形式來描述。

因此，現代世界模型包含一個潛在空間：一種壓縮的、學習到的表徵，其中只保留了最基本的資訊。

視覺編碼器將每一幀壓縮成一個緊湊的向量（場景的數學指紋），模型學習預測下一個指紋——而不是4K幀中的每個像素——以響應動作。這就是計算效率的來源。

為了準確地模擬世界的演變，世界模型也必須學會表示所有可能的結果。這種結果的不確定性通常被稱為環境的隨機性。

世界模型必須學會應對它們尚不了解的事物（認知不確定性：例如，從未見過交通號誌的模型不會知道黃燈之後是紅燈）和本質上不可知的事物（偶然不確定性：隨機性，例如擲骰子 5 ）。

即使模型已經學習了所有關於環境行為的資訊（將其「認知」不確定性降至最低），接下來發生的事情幾乎總會存在一些固有的不確定性（「偶然」不確定性）。這與純粹的娛樂視訊模型截然不同，後者只需能夠預測世界狀態的常見演變即可表現良好。

如果使用簡單的預測方法（例如，使用均方誤差或 MSE 簡單訓練的模型）來預測汽車轉彎，模型可能會變得“模糊”，因為它會對所有可能的結果進行平均。汽車可能轉彎後留在左側車道，也可能併入右側車道。實際上，使誤差最小化的軌跡是不太可能發生的，即汽車保持在兩個車道中間。這就是模糊性所在，不同的模型對此的處理方式也不同。

擴散模型透過逐漸擴散到結果來避免這個問題，使模型能夠確定結果分佈的特定模式，對清晰、合理的未來進行採樣，而不是對所有可能性進行平均。

每個結果有多個標記的自回歸模型也能處理多模態；透過依序對標記進行取樣，它們確保未來的標記預測與先前的預測一致。

相較之下， JEPA 架構透過簡單地規避模糊問題來解決它。 JEPA 從不解碼回像素空間，從而很大程度上避免了明確地對模糊分佈進行建模。它運行在一個平均化影響較小的空間中，因為我們不期望這些模型預測幀，而是期望它們產生對下游任務有用的表示。

這個過程的最終結果取決於你的需求。如果你要建立一個可視化的世界模擬器——一個可以觀看或探索的裝置——你需要透過視覺解碼器將潛在的預測解碼回像素，從而產生對未來可能景象的想像影片。這正是GoogleDeepMind和World Labs的演示看起來逼真且令人印象深刻的原因。

訓練世界模型的方法有很多。我們很快就會介紹這些方法，並結合該領域近八年的發展歷程，探討它們是如何演變和相互發展的。

目前，請記住這一點：將觀察資料與導致這些觀察結果發生的行為結合，訓練世界模型來預測下一個狀態，訓練智能體來預測這些世界中的下一個行為。

為什麼行動是壓縮的終極形式

世界模型背後的一個關鍵見解是：行動是壓縮的最終形式。

想想當你決定向左邁步避開水坑時會發生什麼事。你的大腦會處理視覺場景（人行道、水坑、周圍的人、路沿、駛來的公車），預測近期情況（水坑不會移動，公車會通過，你身後的人會繼續走），評估各種選擇（向左邁步、向右邁步、跳躍、接受鞋子濕透的事實），然後選擇其中一種。

旁觀者無法看透你的內心，無法確切知道你在想什麼，也無法了解你的潛意識裡在處理什麼。他們不知道你是否疲憊，是否匆忙。他們不了解你的道德準則，也不知道你會如何解答電車難題。他們不需要知道這些。他們看到的只是你近乎瞬間完成的計算結果：向左走。

對我來說，那就是魔法。

當然，並非每個人都能做出正確的決定。快進視頻，你也能了解到後果。向左踏一步，就會踩進更大的水坑。向左踏一步，就會被車子剮蹭。往左走一步，就會把嬰兒從嬰兒車裡撞出來。經過數十億次的觀察、指示和行動，我們不僅學會了人類如何根據輸入做出反應，還學會了這些決定的後果。集體世界模型比任何個體都更聰明地行動。

讓我們把視角拉回個體身上。如果你能完美地重建一個人的觀察和行動軌跡，你就能獲得他們與現實互動的近乎完整的記錄。你會知道他們看到了什麼，以及他們對此做了什麼。世界模型正是學習這種映射關係。它將空間和時間壓縮成一個緊湊的表徵，然後利用行動來展開接下來發生的事情。這正是世界模型運算效率如此之高的原因。

這也是為什麼世界模型能夠處理傳統模擬無法處理的隨機性的原因。為了理解這一點，讓我們運用對世界模型工作原理的新理解，重新審視曼聯的比賽。

在傳統的模擬引擎中，每一種可能的行為都需要編寫程式碼。如果你想讓一千名足球迷對進球做出真實的反應，就需要為每種反應類型寫出規則。計算成本會隨著智能體的數量及其交互複雜性的增加而增加。

在世界模型中，成本固定為神經網路的一次迭代。隨機、複雜、充滿變數的人類現實已被融入學習到的權重中，並從模式訓練所使用的數百萬小時影片中吸收。該模型並未計算人群應該做什麼，而是觀察人群的實際行為，並利用這些資訊做出可能的預測。

這就是我所說的「世界模型計算不可計算之物」的意思。傳統計算是確定性的：已知輸入、已知規則、已知輸出。現實世界並非確定性，因此世界模型甚至不會嘗試將這些因素編碼進去。它們觀察、學習並執行，計算成本固定，無論場景多麼複雜。

世界模式與政策

在我們繼續深入探討之前，還有一點需要區分，這一點在關於世界模型的典型討論中常常被混淆。

世界模型是對環境的模擬；它接收行動並產生預測觀察結果；它向你展示如果你做某事將會發生什麼。

策略是智能體在特定環境中行動的大腦。它接收觀察結果（通常也包括指令），並產生行動；它決定要做什麼。

世界模式是夢想。政策是夢想家。夢想家行動，夢想回應。夢想回應，夢想家行動。

實際上，兩者之間的關係比這種區分所暗示的更為密切和錯綜複雜。近期研究探討了在世界模型基礎上訓練策略，或從一開始就將二者結合起來建構策略的方法。首先，我們需要世界模型的權重——該模型已經學會瞭如何預測接下來會發生什麼——然後，不再訓練模型來預測未來的框架或狀態，而是訓練它來預測未來的行動。

一個能夠預測世界的系統，也能更快學會如何在世界中行動。理解和行動並非兩種獨立且生硬拼湊的技能，而是同一種技能的不同表現。至少，我們的研究以及其他實驗室的研究都開始顯示這一點。

這意味著，如果你建立了一個足夠好的世界模型，你就可以更有效地訓練策略，使其在它生成的世界中採取行動。

這是該領域在很短時間內學到的眾多重要知識之一。事實證明，直覺和想像力是同一枚硬幣的兩面。

世界模型簡史

一方面，概括世界模型的現代發展史應該非常容易。畢竟，哈和施密德胡伯出版《世界模型》至今不過八年。

另一方面，短短八年間發生了翻天覆地的變化。在此期間，該領域經歷了四個重大變革：每次變革都促使該領域的研究重點轉向新的問題。本文重點介紹其中一些最重要的論文，而《世界新聞》的訂閱用戶可以在文章末尾找到完整的關鍵論文清單並下載。

Wave 0，即 1990-1991 年，是深度學習出現之前的時代。研究人員首次提出了智能體可以學習世界內部模型並將其用於預測和規劃的想法。他們提出並回答了這樣一個問題：世界模型會做什麼？

這是理查德·薩頓和Dyna 。這是尤爾根·施密德胡伯和《讓世界可微》。在我們擁有運算能力、資料或架構之前，我們只有夢想，在夢境中等待現實追趕。

第一波調查（2018-2019 年）提出的問題是： “這真的可行嗎？”

基於Ha和Schmidhuber的研究，第一個範式是使用視訊自編碼器（VAE）壓縮幀，以循環神經網路（RNN）模擬動態，並在生成的夢境中訓練策略。也就是說：壓縮你所看到的畫面，預測接下來會發生什麼，並訓練智能體在模擬環境中行動。

當時的問題是，在想像（夢境）中進行學習是否可行。研究人員嘗試使用小型模型和簡單的環境來驗證概念，從而找到答案。毫不誇張地說，下一個重大突破最初看起來像個玩具。 Atari的模型為基礎的強化學習引入了 Atari 100k 基準測試：SimPLe 演算法能否僅透過 10 萬個真實環境步驟（約兩小時的遊戲時間）來學習 Atari 遊戲。

答案是肯定的。 SimPLe 學會了玩 26 款 Atari 遊戲，並在樣本效率（即達到給定分數所需的步驟數）方面擊敗了競爭對手的模型。

但它能像人類一樣玩得好嗎？

這正是第二階段（2020-2022 年）的核心問題： “世界模型能否與人類的表現相匹配？”

由GoogleDeepMind的Danijar Hafner開發的 DreamerV2迅速找到了答案。他們使用了一種帶有離散潛在表徵的循環狀態空間模型（RSSM） ——該系統維護著一個壓縮的、運行中的世界記憶，並隨著每次觀察進行更新。 DreamerV2成為第一款在包含55款遊戲的Atari基準測試6中達到人類等級的世界模型智能體。它完全是在想像中，使用單一GPU進行訓練的。

同年，DeepMind 的另一個團隊在《自然》雜誌上發表了題為《透過學習模型進行規劃來精通 Atari、圍棋、國際象棋和將棋》的論文。論文描述了他們的MuZero模型，該模型也贏得了 Atari 遊戲（以及圍棋等其他遊戲），但它採用的理念幾乎與上述論文完全相反。

DreamerV2 產生可觀察的夢境環境並在其中進行訓練，而MuZero 則從未生成任何可觀察的東西，完全在它自己發明的抽象潛在表示中進行規劃，並且做得很好。

事實上，它的表現非常出色，甚至超越了專門針對圍棋的模型。 2016年，DeepMind的AlphaGo以4比1擊敗了人類圍棋冠軍李世石。 AlphaGo的訓練資料庫包含大量人類專家對局以及自我對弈的數據，並且圍棋規則被硬編碼到模型中。第二年， AlphaGoZero完全依賴自我對弈進行訓練，沒有使用任何人類對局數據，只有圍棋規則，卻以100比0的比分擊敗了AlphaGo。在同一年， AlphaGoZero的泛化能力得到了進一步提升。它也嘗試過其他遊戲，例如國際象棋和將棋，並在幾個小時內就掌握了這些遊戲的精髓。然後在2019年（預印本）， MuZero完全透過觀察和結果，從零開始學習了所有內容，包括規則、遊戲動態和價值函數。它在圍棋、西洋棋和將棋（AlphaZero了解這些遊戲的規則）上與AlphaZero勢均力敵，同時還能泛化到57款雅達利遊戲中（在這些遊戲中，「規則」甚至都不是一個明確定義的概念）。

每推出一個新模型，先前人類預先設定的規則、策略、部位價值等都會被移除。模型轉而從零開始學習。 MuZero 是這一發展歷程的終點，它完全是學習而來的。

而 MuZero 做到這一點，完全沒有設想未來的棋盤狀態。它設想的是隱藏狀態，或者說是訓練過程中自行創造的抽象向量，這些向量與任何人類可觀察或可解釋的事物都沒有必然的對應關係。人類觀察 MuZero 對「三步之後」的內部表徵，絕對無法理解它在想什麼。然而……它的表現卻超越了以往所有模型。

隨著 MuZero 的成功，該領域現在出現了兩種對立的思想流派：產生可觀察未來的生成世界模型，以及在抽象空間中進行預測的潛在世界模型，即使它們當時還沒有被稱為「潛在」世界模型。

從那時起，世界模型的發展朝著生成和潛在兩個方向發展。

在潛在層面，2022年，Yann LeCun以Meta和紐約大學庫朗數學研究所雙重身份發表了一篇影響深遠的立場文件，提出了一種與生成模型截然不同的理念，更像是《MuZero：邁向自主機器智能之路》 。他新成立的世界模型公司AMI正是以此文件命名。

LeCun 的聯合嵌入預測架構 (JEPA)反對完全產生像素。與 MuZero 類似，JEPA 不是預測世界的外觀，而是預測其意義。它預測未來狀態的抽象表示，並有意捨棄不可預測的視覺細節。

同年，在生成式建模領域，由Vincent Micheli和Eloi Alonso（General Intuition未來的兩位共同創辦人）開發的 IRIS （2022）將世界建模重新定義為基於已學習的圖像標記詞彙的語言建模。 IRIS並沒有採用循環狀態空間模型，而是使用了一種類似GPT的自回歸Transformer模型來處理離散的視覺標記。簡而言之，IRIS借鑒了語言模型的機制並將其應用於世界建模。

IRIS 的出現填補了以往的許多空白。 IRIS 世界模型其實是一種語言模型，但它的詞彙表是圖像和動作，而非文字。這使得語言模型的可擴展性直接應用於世界建模：高效的注意力機制、可擴展性規律以及所有為大型語言模型構建的工程基礎設施，現在都可以應用於物理世界的學習。

Dreamer 的缺點在於它無法對下一個潛在狀態的聯合規律進行建模（例如，無法處理多模態資料），而 IRIS 則將下一個潛在狀態表示為一系列離散的標記，並進行自回歸預測，這意味著它現在能夠預測多種結果。雖然 Dreamer 透過使用比人類多得多的數據擊敗了人類，但 IRIS 是第一個在相同遊戲資料量（兩小時）下擊敗人類的想像學習方法。

除了JEPA之外，世界模型迄今為止的幾乎所有工作都已完成。

世界模型：計算不可計算之物

今天的「不無聊」節目由… Framer贊助播出

世界模型：計算不可計算之物

特工能在自己的夢境中學習嗎？

語言是不夠的（程式碼也是）。

答案是世界模型

什麼是世界模型？

世界模型的作用

世界模型是如何建構的

為什麼行動是壓縮的終極形式

世界模式與政策

世界模型簡史