Chào mừng 458 người mới gia nhập Not Boring kể từ bài luận trước của chúng tôi! Hãy tham gia cùng 260.170 người thông minh, ham học hỏi khác bằng cách đăng ký tại đây:
Chào các bạn 👋,
Chúc bạn một ngày thứ Tư vui vẻ!
Vài tháng trước, Pim DeWitte và Kent Rollins đã mời tôi đến văn phòng của họ ngay tại thành phố New York để giới thiệu những gì họ đang làm tại General Intuition . Tôi đã nghe nói về công ty này từ khi họ công bố vòng gọi vốn hạt giống trị giá 133,7 triệu đô la, và tôi cũng đã nghe về loại sản phẩm mà họ đang phát triển, World Models, nhưng tôi không biết nhiều hơn thế.
Những gì họ cho tôi thấy ngày hôm đó, những mô hình học cách dự đoán tương lai gần từ các đoạn video chơi game được gắn nhãn hành động, và những gì tôi đã học được từ nhiều cuộc trò chuyện và hàng chục giờ nghiên cứu kể từ đó, đã thay đổi nhận thức của tôi về khả năng của các mô hình. Tôi từng bày tỏ sự hoài nghi rằng các mô hình học tập suốt đời (LLM) sẽ đưa chúng ta đến siêu trí tuệ, nhưng tôi nghĩ rằng có một cơ hội thực sự là các Mô hình Thế giới sẽ thúc đẩy những cỗ máy siêu phàm, bổ trợ cho con người, thực hiện những việc mà chúng ta không thể, hoặc không muốn, làm.
Kể từ cuộc gặp gỡ đầu tiên đó, lĩnh vực Mô hình Thế giới đã trở nên sôi động hơn bao giờ hết. World Labs của Fei-Fei Li đã huy động được 1 tỷ đô la. AMI của Yann LeCun đã huy động được 1,03 tỷ đô la. Mô hình Thế giới là một trong những ngôi sao của hội nghị NVIDIA GTC tuần này. Nhưng lĩnh vực này còn quá non trẻ và có quá nhiều thứ đang diễn ra, quá nhiều thiên tài theo đuổi các phương pháp cạnh tranh và hợp tác, khiến việc hiểu rõ mọi thứ trở nên khó khăn.
Vì vậy, tôi đã đề nghị Pim hợp tác với tôi viết chung một bài luận về lịch sử, lý thuyết, sự phát triển và tiềm năng của Mô hình Thế giới. Anh ấy đã đồng ý, và cả anh ấy lẫn nhóm General Intuition đều vô cùng hào phóng về thời gian và trí tuệ của họ trong việc giúp tôi nắm bắt nhanh chóng kiến thức, để tôi có thể giúp bạn nắm bắt nhanh chóng.
Tôi có công việc tuyệt vời nhất thế giới. Trong vài tháng qua, tôi đã được chứng kiến tận mắt tương lai của trí tuệ nhân tạo thể hiện, của các Mô hình và Tác nhân, được đào tạo trong giấc mơ, hướng dẫn máy móc thực hiện các công việc cho chúng ta trong thế giới vật chất.
Tôi rất vui mừng được chia sẻ thành quả của quá trình nghiên cứu đó, điều mà tôi cho là cẩm nang toàn diện nhất về Mô hình Thế giới hiện có. Rõ ràng, Pim và nhóm GI có quan điểm riêng về cách tốt nhất để xây dựng Mô hình Thế giới, nhưng tôi rất ấn tượng với sự cẩn trọng của họ trong việc trình bày ưu điểm và nhược điểm của mọi phương pháp, bao gồm cả phương pháp của họ, và với sự thừa nhận của họ rằng tương lai vẫn chưa được định đoạt.
Lĩnh vực này tiếp tục thay đổi và phát triển với tốc độ chóng mặt. Tôi hy vọng điều này sẽ giúp bạn định hướng và hiểu rõ tất cả những tin tức thú vị liên tục được cập nhật.
Chúng ta bắt đầu thôi.
Chương trình "Không nhàm chán" hôm nay được tài trợ bởi… Framer
Framer mang đến cho các nhà thiết kế những khả năng siêu phàm.
Framer là trình tạo website không cần lập trình, ưu tiên thiết kế, cho phép bất kỳ ai cũng có thể tạo ra một trang web sẵn sàng hoạt động chỉ trong vài phút. Cho dù bạn bắt đầu với một mẫu có sẵn hay một trang trắng, Framer đều cung cấp cho bạn toàn quyền kiểm soát sáng tạo mà không cần lập trình. Thêm hiệu ứng động, bản địa hóa chỉ với một cú nhấp chuột và cộng tác theo thời gian thực với toàn bộ nhóm của bạn. Bạn thậm chí có thể thử nghiệm A/B và theo dõi số lượt nhấp chuột với công cụ phân tích tích hợp sẵn.
Chỉ cần xuất bản nó bằng Framer
Mô hình thế giới: Tính toán những điều không thể tính toán được
Bài luận viết chung với Pim DeWitte
Đây là một trải nghiệm phổ biến. Là con người, chúng ta dễ dàng tưởng tượng, dù đó là những sân vận động thể thao phức tạp, những mối tình tiềm năng hay những cuộc tranh luận sôi nổi. Chúng ta không cần phải cố gắng nhiều hơn để tưởng tượng mình đang ở trận đấu tiếp theo của Manchester United so với việc tưởng tượng đang nói chuyện với một người bạn mà chúng ta đã quen biết nhiều năm, mặc dù việc tưởng tượng một trận đấu của Manchester bao gồm việc mô phỏng và lập mô hình hành vi của hàng nghìn người, điều mà các máy tính và công cụ trò chơi truyền thống ngày nay sẽ mất nhiều năm để thực hiện¹ .
Hãy thử tưởng tượng viết mã để mô tả trận đấu của Man U: bất cứ lúc nào, một cổ động viên có thể mang đến một lá cờ tự làm ngẫu nhiên. Cả sân vận động bắt đầu hát một bài hát liên quan đến lá cờ đó. Tuy nhiên, chỉ một số người sẽ hát; những người khác sẽ nhảy nhót cùng con cái, trong khi một cặp vợ chồng già ngồi im lặng, tự hỏi liệu đây có phải là trận đấu cuối cùng của họ bên nhau, tận hưởng từng giây phút trong im lặng.
Thế giới là nơi mà những tương lai bất ngờ mở ra, nhưng theo những cách nào đó có thể dự đoán được. Là con người, chúng ta có thể hình dung hầu hết chúng với cùng một lượng nỗ lực và thời gian dành cho mỗi suy nghĩ tương tự nhau. Máy tính thì không thể.
Không có gì lạ khi điện toán truyền thống gặp khó khăn với sự phức tạp này. Hãy tưởng tượng việc dự đoán và lập trình từng hành động, cũng như sự tương tác giữa tất cả các hành động đó. Về mặt toán học, trong một công cụ truyền thống, việc mô phỏng N người hâm mộ ít nhất là một bài toán O(N) hoặc O( N² ) . Mỗi người, lá cờ, ghế và quả bóng đều phải được tính toán rõ ràng — và thực tế, sự tương tác giữa chúng cũng cần được tính toán.
Trong lĩnh vực robot học, máy móc phải phản hồi các tình huống trong thế giới thực trong cùng một khoảng thời gian, bất kể độ phức tạp của chúng, mặc dù trong điện toán truyền thống, các tình huống khác nhau có thể mất thời gian mô phỏng rất khác nhau. Đây là một trở ngại lớn đối với sự tiến bộ của robot học và trí tuệ nhân tạo thể hiện qua hình thể.
Mô hình thế giới là một giải pháp cho vấn đề đó.
Các mô hình thế giới học cách dự đoán những động thái đó từ video và, thường là, các hành động được thực hiện trong đó. Chúng đơn giản hóa các tình huống năng động và khó mô phỏng trên quy mô lớn về mặt tính toán — bao gồm cả hành vi nhóm ngẫu nhiên, phụ thuộc vào hành động như các trận bóng đá — thành một thao tác duy nhất với chi phí cố định trong mạng nơ-ron.
Trong mô hình thế giới, toàn bộ sân vận động được mô phỏng như một đường truyền tiến có chi phí cố định qua mạng nơ-ron. Độ phức tạp của khung cảnh không làm chậm "công cụ" một cách đáng kể trong quá trình suy luận vì các trọng số đã hấp thụ các mẫu của thế giới trong quá trình huấn luyện.
Bằng cách nào? Bằng hành động.
Các hành động đóng vai trò như một hình thức nén thông tin để dự đoán động lực diễn ra: chúng lưu giữ thông tin để làm sáng tỏ các trạng thái tương lai trong một môi trường, cho đến khi có thêm các hành động khác diễn ra và bổ sung các đầu vào mới vào môi trường. Mỗi hành động mang đủ thông tin để dự đoán điều gì sẽ xảy ra tiếp theo, cho đến khi hành động tiếp theo cập nhật bức tranh tổng thể.
Hãy nghĩ về các mô hình như những giấc mơ.
Tôi đã lập trình một đoạn mã so sánh mà bạn có thể thử tại đây .
Nói một cách chính thức hơn, trong khi mô hình video tiêu chuẩn dự đoán khung hình tiếp theo dựa trên xác suất, P(x t+1 | x t ), thì Mô hình Thế giới dự đoán trạng thái tiếp theo dựa trên sự can thiệp , P(s t+1 | s t , a t ).
Điều kỳ diệu nằm ở chỗ a , tức là hành động tại thời điểm t.
Tại General Intuition , chúng tôi tin tưởng (và đang thấy những dấu hiệu ban đầu) rằng Mô hình Thế giới là một loại mô hình nền tảng mới và có tiềm năng mạnh mẽ hơn so với Mô hình LLM đối với các môi trường đòi hỏi khả năng suy luận không gian và thời gian sâu sắc. Những môi trường như thế giới thực của chúng ta.
Các mô hình thế giới — những hệ thống học hỏi từ việc quan sát thế giới và các hành động diễn ra trong đó — là một loại mô hình nền tảng hoàn toàn mới. Chúng có thể tính toán những thứ trước đây không thể tính toán được.
Chúng sẽ có ý nghĩa quan trọng hơn nhiều so với những gì mọi người hiện đang nhận ra, bởi vì chúng mở ra con đường dẫn đến trí tuệ tổng quát mà ngôn ngữ và mã lập trình đơn thuần không thể làm được. Suy cho cùng, làm người là dành cả cuộc đời để hành động dựa trên những gì ta trải nghiệm, quan sát và học hỏi .
Tạm dừng. Có thể bạn sẽ thấy khó hiểu với nhận định rằng Mô hình Thế giới cung cấp con đường dẫn đến trí tuệ tổng quát mà Mô hình Luật học (LLM) không thể. Điều đó hoàn toàn dễ hiểu.
Mô hình Thế giới đang thu hút rất nhiều sự chú ý gần đây. Yann LeCun, người từng hoài nghi rằng mô hình thế giới cấp độ thấp (LLM) là con đường dẫn đến trí tuệ tổng quát, vừa tuyên bố đã huy động được 1,03 tỷ đô la cho AMI . World Labs của Fei-Fei Li cũng đã huy động được hơn 1 tỷ đô la để theo đuổi Mô hình Thế giới. Google DeepMind, công ty sở hữu khả năng tạo ra tiền gần như vô hạn trong lĩnh vực công nghệ, cũng đang đặt cược vào Mô hình Thế giới. Nhưng những gì chúng ta thấy cho đến nay từ khoản đầu tư đó chỉ là những video thú vị và thế giới 3D.
Những người có kiến thức chuyên sâu về lập trình (LLM) có thể trích dẫn Shakespeare và giải quyết các bài toán Erdős. Mặt khác, các mô hình thế giới dường như vẫn giống con đường dẫn đến Siêu vũ trụ hơn là con đường dẫn đến trí tuệ tổng quát.
Nhưng một phần lý do khiến các Mô hình Thế giới chưa được chú ý nhiều như các Mô hình Địa lý Cấp cao (LLM) là vì định nghĩa của chúng vẫn còn chưa rõ ràng.
Mô hình Thế giới là gì? Chúng ta đã nói rằng mô hình video không phù hợp với định nghĩa này. Mô hình không gian 3D cũng vậy. Tuy nhiên, cả hai đều có thể là con đường dẫn đến Mô hình Thế giới. Liệu các mô hình điều khiển robot ngày nay có phải là Mô hình Thế giới? Thực ra là không hẳn, mặc dù một số thì đúng là vậy, và ngay cả những mô hình không phải cũng có những đặc điểm chung với kiến trúc của Mô hình Thế giới.
Như thường lệ, sự thổi phồng chỉ làm tăng thêm sự nhầm lẫn. “Dự đoán của tôi là ‘Mô hình Thế giới’ sẽ là từ khóa thịnh hành tiếp theo,” Alexandre LeBrun, Giám đốc điều hành của AMI Labs (chắc chắn là một công ty thuộc loại Mô hình Thế giới) nói với TechCrunch . “Trong vòng sáu tháng, mọi công ty sẽ tự gọi mình là Mô hình Thế giới để huy động vốn.”
Sự thổi phồng chỉ là một phần nhỏ. Điều mà chúng tôi — và tất cả những người khác đang xây dựng trong lĩnh vực này — tin tưởng là Mô hình Thế giới là con đường dẫn đến việc điều khiển máy móc trong thế giới vật lý. Có những khác biệt trong quan điểm về con đường này. Nhưng tất cả chúng tôi đều tin rằng tương lai nằm ở Mô hình Thế giới.
“…rất ít người hiểu được tầm ảnh hưởng sâu rộng của sự thay đổi này…”, Giám đốc Robot và Nhà khoa học ưu tú của NVIDIA, Jim Fan, cho biết gần đây . “Thật không may, trường hợp sử dụng được thổi phồng nhất của Mô hình Thế giới hiện nay là xử lý dữ liệu video AI (và sắp tới là dữ liệu game). Tôi hoàn toàn tự tin rằng năm 2026 sẽ đánh dấu năm đầu tiên Mô hình Thế giới quy mô lớn đặt nền móng thực sự cho robot, và cho trí tuệ nhân tạo đa phương thức nói chung.”
Hôm nay, chúng tôi hân hạnh chào đón các bạn gia nhập nhóm “rất ít người” hiểu được tầm ảnh hưởng sâu rộng của sự thay đổi này. Chúng tôi sẽ chia sẻ lịch sử của World Models, hiện trạng của lĩnh vực này, những giải thích tổng quan về các phương pháp mà mỗi phòng thí nghiệm lớn đang áp dụng, và những niềm tin định hướng cho hướng đi của General Intuition.
Việc bạn có đi cùng chúng tôi hay không là tùy thuộc vào bạn. Nếu bạn chọn viên thuốc màu xanh, câu chuyện sẽ kết thúc. Bạn tỉnh dậy trên giường và tin vào bất cứ điều gì bạn muốn tin. Nếu bạn chọn viên thuốc màu đỏ... bạn sẽ ở lại Xứ sở thần tiên, và chúng tôi sẽ cho bạn thấy hố thỏ sâu đến mức nào.
Liệu các đặc vụ có thể học hỏi ngay trong giấc mơ của chính mình?
Vào năm 380 trước Công nguyên, Plato, thông qua Socrates, đã đưa ra Ngụ ngôn về Hang động . Hãy tưởng tượng những con người sống dưới lòng đất trong một hang động, cổ bị xích, buộc phải nhìn về phía trước vào những cái bóng trên vách hang. Những người đó sẽ tin rằng những cái bóng đó là hiện thực, trong khi thực tế chúng chỉ là những cái bóng của hiện thực. Đó là ẩn dụ của Plato. Ông cho rằng tất cả chúng ta đều bị mắc kẹt trong hang động, cổ bị xích, nhầm lẫn nhận thức của mình với hiện thực đích thực.
Tám mươi năm sau, triết gia Đạo giáo Trung Quốc Trang Tử đã suy ngẫm những câu hỏi tương tự trong một đoạn văn của tác phẩm Giấc mơ bướm của ông:
Một lần nọ, Trang Chu nằm mơ thấy mình là một con bướm, một con bướm bay lượn vui vẻ, tự mãn làm những gì mình thích. Ông không biết mình là Trang Chu. Bỗng nhiên, ông tỉnh dậy và thấy mình hiện ra, chính là Trang Chu bằng xương bằng thịt. Nhưng ông không biết mình là Trang Chu nằm mơ thấy mình là một con bướm, hay là một con bướm đang mơ thấy mình là Trang Chu. Giữa Trang Chu và một con bướm chắc chắn phải có sự khác biệt! Điều này được gọi là Sự Biến Đổi của Vạn Vật.
Qua nhiều thế kỷ và sự phát triển của khả năng công nghệ, các nhà văn khoa học viễn tưởng đã nối tiếp truyền thống lâu đời của những nhà tư tưởng tìm tòi về bản chất thực sự của hiện thực. Những tác phẩm như The Tunnel Under the World (1955) của Frederik Pohl, Simulacron-3 của Daniel F. Galouye , Non Serviam của Stanislaw Lem, True Names của Vernor Vinge, Neuromancer của William Gibson, Snow Crash của Neal Stephenson – tất cả đều vẽ nên những bức tranh bằng văn bản về thế giới mô phỏng.
Trong một bài phát biểu năm 1977 tại Metz, Pháp, huyền thoại khoa học viễn tưởng Philip K. Dick đã tự tin nói với khán giả : “Chúng ta đang sống trong một thực tại được lập trình bằng máy tính, và manh mối duy nhất chúng ta có được về điều đó là khi một số biến số bị thay đổi² và một số thay đổi xảy ra trong thực tại của chúng ta.”
Lần đầu tiên bạn tiếp xúc với thế giới mô phỏng có lẽ là qua bộ phim Ma Trận. Chúng tôi cũng vậy. Trong kịch bản gốc của phim The Matrix, anh em nhà Wachowski đã hình dung Matrix như một mô phỏng được tạo ra bởi tập thể các bộ não con người được kết nối thành một mạng lưới thần kinh.
Christopher Nolan, bất chấp sự khó hiểu của khán giả - thậm chí còn thích thú với điều đó - đã cho ra mắt Inception 3 vào năm 2010. Những giấc mơ trong giấc mơ, rồi lại trong giấc mơ.
Nhưng tất cả chỉ là khoa học viễn tưởng thôi, phải không?
Năm 1990, Jürgen Schmidhuber, một nhà nghiên cứu trẻ tại Đại học Kỹ thuật Munich, đã xuất bản cuốn sách "Making the World Differentiable" (Làm cho thế giới trở nên có thể phân biệt được ).
Bài báo đề xuất xây dựng một mạng nơ-ron hồi quy (RNN), một mạng nơ-ron có hai nhiệm vụ: thứ nhất, học cách dự đoán điều gì sẽ xảy ra tiếp theo trong một thế giới mô phỏng và thứ hai, sử dụng thế giới mô phỏng đó để huấn luyện một tác nhân (Agent) hành động trong đó.
Tác nhân ảo sẽ không cần tương tác với môi trường "thực" nào cả. Nó có thể học hỏi bên trong mô hình. Bên trong một giấc mơ.
Năm sau, Richard Sutton, tác giả nổi tiếng của cuốn sách "Bài học cay đắng" , đã nảy ra một ý tưởng tương tự. Trong cuốn "Dyna, một kiến trúc tích hợp cho việc học tập, lập kế hoạch và phản ứng ", ông lập luận rằng việc học tập, lập kế hoạch và phản ứng không nên là những hệ thống riêng biệt. Chúng nên được thống nhất trong một kiến trúc duy nhất. Điều này có nghĩa là về mặt kỹ thuật, hoàn toàn có thể xây dựng một mô hình của thế giới, thực hành bên trong mô hình đó và chuyển những gì đã học trở lại thực tế.
Cả hai bài báo đều mang tầm nhìn xa. Chúng sẽ có tác động lâu dài khi những tiến bộ trong lĩnh vực này cho phép tầm nhìn của các nhà nghiên cứu trở thành hiện thực. Nhưng khi chúng được công bố vào thời điểm đó, cả hai bài báo đều có thể được coi là khoa học viễn tưởng.
Năm 1990, thế giới có sức mạnh tính toán ít hơn khoảng 100 nghìn tỷ đến 1 triệu tỷ lần so với hiện nay. Khi đó, toàn thế giới chỉ có khoảng 10-100 gigaFLOPS tổng công suất. Chỉ riêng năm 2024, hàng chục zettaflops (10^22 FLOPS) sức mạnh tính toán đã được bán ra. Năm 1990, dung lượng dữ liệu kỹ thuật số toàn cầu chỉ khoảng 10 petabyte, một dung lượng nhỏ đến mức chỉ chứa được khoảng 0,005% dữ liệu video mà chúng ta hiện đang sử dụng cho một lần chạy huấn luyện. Đến năm 2026, dung lượng đó đã tăng vọt gấp 22 triệu lần, lên đến 221 zettabyte.
Nhưng công nghệ ngày càng phát triển, và những giấc mơ vĩ đại nhất sẽ không bao giờ chết đi.
Gần ba thập kỷ sau, vào tháng 3 năm 2018, David Ha (khi đó làm việc tại Google Brain) và Schmidhuber đã công bố một bài báo có tiêu đề " World Models" . 4
Bài báo đặt câu hỏi: Liệu các đặc vụ có thể học hỏi ngay trong giấc mơ của chính họ?
Donald Hoffman , Giáo sư Khoa học Nhận thức tại Đại học California, Irvine, đã đưa ý tưởng đó tiến xa hơn rất nhiều. Ông tin rằng tất cả chúng ta đều đang đeo "tai nghe thực tế ảo" giúp đơn giản hóa sự phức tạp đến choáng ngợp của thế giới lượng tử thành một giao diện thân thiện với người dùng. Thực tế quá phong phú, vì vậy chúng ta điều hướng nó thông qua một dạng giấc mơ tỉnh thức dai dẳng.
Bạn có thể đào sâu đến mức nào tùy thích. Nhưng xuyên suốt hành trình, tất cả đều xoay quanh World Models.
Ha và Schmidhuber đã chứng minh rằng máy tính có thể tiếp cận thế giới giống như cách chúng ta: tạo ra các mô phỏng để dự đoán trạng thái tương lai dựa trên hành động, hành động dựa trên những dự đoán đó, cập nhật và lặp lại.
Hành động quan trọng hơn lời nói.
Ngôn ngữ thôi chưa đủ (Mã lệnh cũng vậy)
Chúng ta cùng chơi một trò chơi nhé.
Vỗ tay năm lần.
Bây giờ, thay vì vỗ tay bằng tay thật, tôi muốn các bạn mô tả hành động vỗ tay chỉ bằng lời nói.
Vị trí của chúng trong không gian, vị trí tương đối của chúng so với nhau, tính bằng picogiây. Các điểm tiếp xúc. Âm thanh. Hình dạng bàn tay của bạn khi chúng di chuyển lại gần nhau, chạm vào nhau và tách ra. Cách chúng ép vào nhau. Điều gì xảy ra với không khí giữa hai lòng bàn tay của bạn. Bạn nhìn thấy gì khi vỗ tay. Đừng quên cánh tay của bạn. Chúng uốn cong như thế nào để tạo điều kiện cho việc vỗ tay? Hãy nhớ làm điều này cũng bằng picogiây. Vải trên tay áo của bạn phản ứng như thế nào? Điều gì đang xảy ra ở phía sau? Người bên cạnh bạn có nhận thấy bạn vỗ tay không? Họ đã phản ứng như thế nào? Bạn có bị sa thải vì vỗ tay giữa cuộc họp, làm theo hướng dẫn của một bài luận mà bạn không nên đọc trong khi đáng lẽ bạn phải tập trung vào công việc không? Mô tả cho tôi mạch máu trên trán của sếp bạn. Nó có bị nổi lên không?
Bạn không thể, phải không? Được rồi, dừng lại. Ý tôi đã rõ.
Ngôn ngữ là một sự nén ép thực tại với mức độ mất mát vô cùng lớn.
Ngôn ngữ rất quan trọng, dĩ nhiên rồi. Đó là cách chúng ta giao tiếp và phối hợp. Trò chơi đoán chữ minh họa rằng để truyền đạt ý tưởng, ngôn ngữ có thể hiệu quả hơn nhiều so với hành động. Các chuyên gia ngôn ngữ trị liệu (LLM) rất quan trọng ở khía cạnh đó. Nhưng chỉ ngôn ngữ thôi thì chưa đủ.
Còn về mã lập trình thì sao? Mã lập trình là một dạng ngôn ngữ rất chính xác, giúp máy móc thực hiện các tác vụ.
Tôi yêu cầu Claude "lập trình cho tôi một mô phỏng vỗ tay năm lần trong một môi trường thực tế." Và nó đã tạo ra cho tôi cái này . Trông có vẻ rất đau đớn.
Để hiểu thế giới, bạn phải tương tác với nó.
Trong cuốn tiểu thuyết Trò Chơi Hạt Thủy Tinh (Das Glasperlenspiel) của Herman Hesse, tác phẩm đã mang về cho ông giải Nobel Văn học năm 1946, độc giả được giới thiệu đến Castalia, một xã hội lý tưởng về trí tuệ trong tương lai, dành riêng cho tư duy thuần túy. Trung tâm của Castalia là một trò chơi phức tạp, trò chơi mang tên Trò Chơi Hạt Thủy Tinh, tổng hợp tất cả kiến thức của nhân loại thành một ngôn ngữ hình thức duy nhất. Người chơi sáng tác "trò chơi" giống như cách người ta sáng tác một bản fugue. Một nước đi có thể liên kết một bản cantata của Bach với một chứng minh toán học, rồi với một đoạn văn của Khổng Tử. Trò chơi là sự trừu tượng tối thượng: toàn bộ nền văn hóa nhân loại được nén lại thành sự thao tác mang tính biểu tượng.
Thế giới thực là — hoặc đã từng là — không thể tính toán được .
Câu trả lời là Mô hình Thế giới
Joseph Knecht phải rời khỏi Castalia.
Đạo có thể diễn đạt được không phải là Đạo vĩnh hằng.
Ban đầu là Lời. Sau đó, con người xuất hiện, hành động một cách bất toàn và khó đoán.
Có lẽ mọi chuyện là như vậy. Ban đầu là các mô hình LLM. Sau đó xuất hiện các mô hình thế giới.
Mô hình thế giới là gì?
Mô hình thế giới mô phỏng môi trường và phản hồi khi bạn tương tác bên trong môi trường đó.
Các mô hình thế giới làm gì?
Ai2 , hay Viện Allen về Trí tuệ Nhân tạo, là một tổ chức phi lợi nhuận được thành lập và tài trợ bởi cố đồng sáng lập Microsoft, Paul Allen. Viện thực hiện các nghiên cứu và công cụ mã nguồn mở tuyệt vời, bao gồm cả sản phẩm mới nhất MolmoBot, một "bộ mô hình mở dành cho robot, được đào tạo hoàn toàn bằng mô phỏng."
"Kết quả của chúng tôi cho thấy việc chuyển giao dữ liệu không cần xử lý từ mô phỏng sang thực tế để thao tác là khả thi," họ đã đăng tải trên Twitter .
Dhruv Shah, giáo sư tại Princeton và nhà nghiên cứu tại Google DeepMind, người tham gia dự án, chia sẻ : “Trong phạm vi các tác vụ dễ mô phỏng, một chính sách được huấn luyện hoàn toàn bằng mô phỏng cho hiệu suất vượt trội hơn so với các thuật toán VLA tiên tiến nhất được huấn luyện trên hàng nghìn giờ dữ liệu thực!”
Cách thức xây dựng mô hình thế giới
Các mô hình thế giới phải học cách xử lý những gì chúng chưa biết (sự bất định về mặt nhận thức: ví dụ, một mô hình chưa từng nhìn thấy đèn giao thông sẽ không biết rằng đèn đỏ theo sau đèn vàng) và những điều vốn dĩ không thể biết được (sự bất định ngẫu nhiên: tính ngẫu nhiên, giống như tung xúc xắc 5 mặt).
Ngay cả khi mô hình đã học được tất cả những gì có thể biết về hành vi của môi trường (nó đã giảm thiểu sự không chắc chắn "nhận thức" xuống mức tối thiểu), hầu như luôn luôn sẽ có một số sự không chắc chắn vốn có ("sự không chắc chắn ngẫu nhiên") về những gì sẽ xảy ra tiếp theo. Điều này trái ngược với các mô hình video giải trí thuần túy, chỉ cần có khả năng dự đoán sự tiến hóa chung của trạng thái thế giới để hoạt động tốt.
Nếu bạn sử dụng phương pháp dự đoán đơn giản (ví dụ: một mô hình được huấn luyện một cách ngây thơ với Sai số Bình phương Trung bình, hay MSE) để dự đoán một chiếc xe đang rẽ ở góc đường, mô hình có thể trở nên "mờ nhạt" vì nó tính trung bình mọi kết quả có thể xảy ra. Chiếc xe có thể rẽ và vẫn ở làn đường bên trái, hoặc nó có thể nhập vào làn đường bên phải. Quỹ đạo thực sự giảm thiểu sai số lại là quỹ đạo không khả thi khi chiếc xe vẫn ở giữa hai làn đường. Đó chính là sự mờ nhạt, và các mô hình khác nhau xử lý nó theo những cách khác nhau.
Các mô hình khuếch tán tránh được vấn đề này bằng cách khuếch tán dần dần về phía kết quả, cho phép mô hình xác định một chế độ cụ thể của phân bố kết quả, lấy mẫu một tương lai rõ ràng, khả thi thay vì lấy trung bình tất cả các khả năng.
Các mô hình tự hồi quy với nhiều token cho mỗi kết quả cũng xử lý được tính đa phương thức; bằng c
















