Mô hình thế giới: Tính toán những điều không thể tính toán được

03-19

Bài viết này được dịch máy

Xem bản gốc

Chào mừng 458 người mới gia nhập Not Boring kể từ bài luận trước của chúng tôi! Hãy tham gia cùng 260.170 người thông minh, ham học hỏi khác bằng cách đăng ký tại đây:

Đăng ký ngay

Chào các bạn 👋,

Chúc bạn một ngày thứ Tư vui vẻ!

Vài tháng trước, Pim DeWitte và Kent Rollins đã mời tôi đến văn phòng của họ ngay tại thành phố New York để giới thiệu những gì họ đang làm tại General Intuition . Tôi đã nghe nói về công ty này từ khi họ công bố vòng gọi vốn hạt giống trị giá 133,7 triệu đô la, và tôi cũng đã nghe về loại sản phẩm mà họ đang phát triển, World Models, nhưng tôi không biết nhiều hơn thế.

Những gì họ cho tôi thấy ngày hôm đó, những mô hình học cách dự đoán tương lai gần từ các đoạn video chơi game được gắn nhãn hành động, và những gì tôi đã học được từ nhiều cuộc trò chuyện và hàng chục giờ nghiên cứu kể từ đó, đã thay đổi nhận thức của tôi về khả năng của các mô hình. Tôi từng bày tỏ sự hoài nghi rằng các mô hình học tập suốt đời (LLM) sẽ đưa chúng ta đến siêu trí tuệ, nhưng tôi nghĩ rằng có một cơ hội thực sự là các Mô hình Thế giới sẽ thúc đẩy những cỗ máy siêu phàm, bổ trợ cho con người, thực hiện những việc mà chúng ta không thể, hoặc không muốn, làm.

Kể từ cuộc gặp gỡ đầu tiên đó, lĩnh vực Mô hình Thế giới đã trở nên sôi động hơn bao giờ hết. World Labs của Fei-Fei Li đã huy động được 1 tỷ đô la. AMI của Yann LeCun đã huy động được 1,03 tỷ đô la. Mô hình Thế giới là một trong những ngôi sao của hội nghị NVIDIA GTC tuần này. Nhưng lĩnh vực này còn quá non trẻ và có quá nhiều thứ đang diễn ra, quá nhiều thiên tài theo đuổi các phương pháp cạnh tranh và hợp tác, khiến việc hiểu rõ mọi thứ trở nên khó khăn.

Vì vậy, tôi đã đề nghị Pim hợp tác với tôi viết chung một bài luận về lịch sử, lý thuyết, sự phát triển và tiềm năng của Mô hình Thế giới. Anh ấy đã đồng ý, và cả anh ấy lẫn nhóm General Intuition đều vô cùng hào phóng về thời gian và trí tuệ của họ trong việc giúp tôi nắm bắt nhanh chóng kiến thức, để tôi có thể giúp bạn nắm bắt nhanh chóng.

Tôi có công việc tuyệt vời nhất thế giới. Trong vài tháng qua, tôi đã được chứng kiến tận mắt tương lai của trí tuệ nhân tạo thể hiện, của các Mô hình và Tác nhân, được đào tạo trong giấc mơ, hướng dẫn máy móc thực hiện các công việc cho chúng ta trong thế giới vật chất.

Tôi rất vui mừng được chia sẻ thành quả của quá trình nghiên cứu đó, điều mà tôi cho là cẩm nang toàn diện nhất về Mô hình Thế giới hiện có. Rõ ràng, Pim và nhóm GI có quan điểm riêng về cách tốt nhất để xây dựng Mô hình Thế giới, nhưng tôi rất ấn tượng với sự cẩn trọng của họ trong việc trình bày ưu điểm và nhược điểm của mọi phương pháp, bao gồm cả phương pháp của họ, và với sự thừa nhận của họ rằng tương lai vẫn chưa được định đoạt.

Lĩnh vực này tiếp tục thay đổi và phát triển với tốc độ chóng mặt. Tôi hy vọng điều này sẽ giúp bạn định hướng và hiểu rõ tất cả những tin tức thú vị liên tục được cập nhật.

Chúng ta bắt đầu thôi.

Chương trình "Không nhàm chán" hôm nay được tài trợ bởi… Framer

Framer mang đến cho các nhà thiết kế những khả năng siêu phàm.

Framer là trình tạo website không cần lập trình, ưu tiên thiết kế, cho phép bất kỳ ai cũng có thể tạo ra một trang web sẵn sàng hoạt động chỉ trong vài phút. Cho dù bạn bắt đầu với một mẫu có sẵn hay một trang trắng, Framer đều cung cấp cho bạn toàn quyền kiểm soát sáng tạo mà không cần lập trình. Thêm hiệu ứng động, bản địa hóa chỉ với một cú nhấp chuột và cộng tác theo thời gian thực với toàn bộ nhóm của bạn. Bạn thậm chí có thể thử nghiệm A/B và theo dõi số lượt nhấp chuột với công cụ phân tích tích hợp sẵn.

Khởi chạy miễn phí tại Framer.com. Sử dụng mã NOTBORING để được dùng thử Framer Pro miễn phí một tháng.

Chỉ cần xuất bản nó bằng Framer

Mô hình thế giới: Tính toán những điều không thể tính toán được

Bài luận viết chung với Pim DeWitte

“Đêm qua tôi muốn ngủ thiếp đi. Thay vào đó, tôi bắt đầu tưởng tượng ra tất cả những tình huống mình có thể gặp phải vào ngày mai và cách mình sẽ phản ứng với chúng.”

Đây là một trải nghiệm phổ biến. Là con người, chúng ta dễ dàng tưởng tượng, dù đó là những sân vận động thể thao phức tạp, những mối tình tiềm năng hay những cuộc tranh luận sôi nổi. Chúng ta không cần phải cố gắng nhiều hơn để tưởng tượng mình đang ở trận đấu tiếp theo của Manchester United so với việc tưởng tượng đang nói chuyện với một người bạn mà chúng ta đã quen biết nhiều năm, mặc dù việc tưởng tượng một trận đấu của Manchester bao gồm việc mô phỏng và lập mô hình hành vi của hàng nghìn người, điều mà các máy tính và công cụ trò chơi truyền thống ngày nay sẽ mất nhiều năm để thực hiện¹ .

Hãy thử tưởng tượng viết mã để mô tả trận đấu của Man U: bất cứ lúc nào, một cổ động viên có thể mang đến một lá cờ tự làm ngẫu nhiên. Cả sân vận động bắt đầu hát một bài hát liên quan đến lá cờ đó. Tuy nhiên, chỉ một số người sẽ hát; những người khác sẽ nhảy nhót cùng con cái, trong khi một cặp vợ chồng già ngồi im lặng, tự hỏi liệu đây có phải là trận đấu cuối cùng của họ bên nhau, tận hưởng từng giây phút trong im lặng.

Thế giới là nơi mà những tương lai bất ngờ mở ra, nhưng theo những cách nào đó có thể dự đoán được. Là con người, chúng ta có thể hình dung hầu hết chúng với cùng một lượng nỗ lực và thời gian dành cho mỗi suy nghĩ tương tự nhau. Máy tính thì không thể.

Không có gì lạ khi điện toán truyền thống gặp khó khăn với sự phức tạp này. Hãy tưởng tượng việc dự đoán và lập trình từng hành động, cũng như sự tương tác giữa tất cả các hành động đó. Về mặt toán học, trong một công cụ truyền thống, việc mô phỏng N người hâm mộ ít nhất là một bài toán O(N) hoặc O( ^N² ) . Mỗi người, lá cờ, ghế và quả bóng đều phải được tính toán rõ ràng — và thực tế, sự tương tác giữa chúng cũng cần được tính toán.

Trong lĩnh vực robot học, máy móc phải phản hồi các tình huống trong thế giới thực trong cùng một khoảng thời gian, bất kể độ phức tạp của chúng, mặc dù trong điện toán truyền thống, các tình huống khác nhau có thể mất thời gian mô phỏng rất khác nhau. Đây là một trở ngại lớn đối với sự tiến bộ của robot học và trí tuệ nhân tạo thể hiện qua hình thể.

Mô hình thế giới là một giải pháp cho vấn đề đó.

Các mô hình thế giới học cách dự đoán những động thái đó từ video và, thường là, các hành động được thực hiện trong đó. Chúng đơn giản hóa các tình huống năng động và khó mô phỏng trên quy mô lớn về mặt tính toán — bao gồm cả hành vi nhóm ngẫu nhiên, phụ thuộc vào hành động như các trận bóng đá — thành một thao tác duy nhất với chi phí cố định trong mạng nơ-ron.

Trong mô hình thế giới, toàn bộ sân vận động được mô phỏng như một đường truyền tiến có chi phí cố định qua mạng nơ-ron. Độ phức tạp của khung cảnh không làm chậm "công cụ" một cách đáng kể trong quá trình suy luận vì các trọng số đã hấp thụ các mẫu của thế giới trong quá trình huấn luyện.

Bằng cách nào? Bằng hành động.

Các hành động đóng vai trò như một hình thức nén thông tin để dự đoán động lực diễn ra: chúng lưu giữ thông tin để làm sáng tỏ các trạng thái tương lai trong một môi trường, cho đến khi có thêm các hành động khác diễn ra và bổ sung các đầu vào mới vào môi trường. Mỗi hành động mang đủ thông tin để dự đoán điều gì sẽ xảy ra tiếp theo, cho đến khi hành động tiếp theo cập nhật bức tranh tổng thể.

Phương pháp tiếp cận dựa trên hành động này cho phép các mô hình học hỏi và lập kế hoạch một cách tương tác. Hiện nay, điều này là bất khả thi ngay cả trong các công cụ mô phỏng tốt nhất, và chắc chắn không thể thực hiện được với chi phí tính toán có thể dự đoán được. Hành động giúp các mô hình tương tác với thế giới giống như cách chúng ta làm.

Hết lần này đến lần khác, mỗi ngày, bạn quan sát, bạn tính toán, bạn quyết định phải làm gì, và bạn hành động. Đó chính là cuộc sống. Tại bất kỳ thời điểm nào, tất cả thông tin thu thập được về không gian và thời gian đều quy tụ lại thành hành động bạn thực hiện.

Đối với máy tính, các hành động là một "mã gian lận" để giảm thiểu chi phí mô phỏng . Nếu bộ não con người hiệu quả hơn nhiều so với các mô hình tuyến tính thông thường, thì chúng ta có thể thực hiện tất cả các phép tính đó gần như miễn phí bằng cách quan sát cách con người phản ứng với vô số biến số trong môi trường của họ. Điều này cung cấp cho chúng ta một cách để thực hiện tính toán phi xác định một cách hiệu quả và tạo ra các mô phỏng mà lẽ ra không thể thực hiện được với các hạn chế tính toán truyền thống.

Khả năng tính toán những điều không thể tính toán được chính là lý do chúng tôi tin rằng Mô hình Thế giới sẽ mở khóa những tiến bộ trong Trí tuệ Nhân tạo thể hiện theo cách mà các kiến trúc mô hình hiện tại không thể làm được.

Hãy nghĩ về các mô hình như những giấc mơ.

Bạn đã bao giờ mơ thấy mình chỉ đứng đó và quan sát những gì đang xảy ra mà không thể can thiệp chưa? Đó chính là mô hình video .

Thế giới thực thì khác. Nó phản ứng với những gì bạn làm hoặc chỉ đạo bạn làm, và dự đoán toàn bộ các khả năng có thể xảy ra, chứ không chỉ là khả năng xảy ra cao nhất hoặc thú vị nhất trong tương lai.

Bạn đã bao giờ có một giấc mơ tỉnh táo, trong đó bạn có thể định hình câu chuyện bên trong thế giới tưởng tượng do chính mình tạo ra chưa? Đó chính là Mô hình Thế giới .

Tôi đã lập trình một đoạn mã so sánh mà bạn có thể thử tại đây .

Nói một cách chính thức hơn, trong khi mô hình video tiêu chuẩn dự đoán khung hình tiếp theo dựa trên xác suất, P(x _t+1 | x _t ), thì Mô hình Thế giới dự đoán trạng thái tiếp theo dựa trên sự can thiệp , P(s _t+1 | s _t , a _t ).

Điều kỳ diệu nằm ở chỗ _a _, tức là hành động tại thời điểm t.

Tại General Intuition , chúng tôi tin tưởng (và đang thấy những dấu hiệu ban đầu) rằng Mô hình Thế giới là một loại mô hình nền tảng mới và có tiềm năng mạnh mẽ hơn so với Mô hình LLM đối với các môi trường đòi hỏi khả năng suy luận không gian và thời gian sâu sắc. Những môi trường như thế giới thực của chúng ta.

Các mô hình thế giới — những hệ thống học hỏi từ việc quan sát thế giới và các hành động diễn ra trong đó — là một loại mô hình nền tảng hoàn toàn mới. Chúng có thể tính toán những thứ trước đây không thể tính toán được.

Chúng sẽ có ý nghĩa quan trọng hơn nhiều so với những gì mọi người hiện đang nhận ra, bởi vì chúng mở ra con đường dẫn đến trí tuệ tổng quát mà ngôn ngữ và mã lập trình đơn thuần không thể làm được. Suy cho cùng, làm người là dành cả cuộc đời để hành động dựa trên những gì ta trải nghiệm, quan sát và học hỏi .

Tạm dừng. Có thể bạn sẽ thấy khó hiểu với nhận định rằng Mô hình Thế giới cung cấp con đường dẫn đến trí tuệ tổng quát mà Mô hình Luật học (LLM) không thể. Điều đó hoàn toàn dễ hiểu.

Mô hình Thế giới đang thu hút rất nhiều sự chú ý gần đây. Yann LeCun, người từng hoài nghi rằng mô hình thế giới cấp độ thấp (LLM) là con đường dẫn đến trí tuệ tổng quát, vừa tuyên bố đã huy động được 1,03 tỷ đô la cho AMI . World Labs của Fei-Fei Li cũng đã huy động được hơn 1 tỷ đô la để theo đuổi Mô hình Thế giới. Google DeepMind, công ty sở hữu khả năng tạo ra tiền gần như vô hạn trong lĩnh vực công nghệ, cũng đang đặt cược vào Mô hình Thế giới. Nhưng những gì chúng ta thấy cho đến nay từ khoản đầu tư đó chỉ là những video thú vị và thế giới 3D.

Những người có kiến thức chuyên sâu về lập trình (LLM) có thể trích dẫn Shakespeare và giải quyết các bài toán Erdős. Mặt khác, các mô hình thế giới dường như vẫn giống con đường dẫn đến Siêu vũ trụ hơn là con đường dẫn đến trí tuệ tổng quát.

Nhưng một phần lý do khiến các Mô hình Thế giới chưa được chú ý nhiều như các Mô hình Địa lý Cấp cao (LLM) là vì định nghĩa của chúng vẫn còn chưa rõ ràng.

Mô hình Thế giới là gì? Chúng ta đã nói rằng mô hình video không phù hợp với định nghĩa này. Mô hình không gian 3D cũng vậy. Tuy nhiên, cả hai đều có thể là con đường dẫn đến Mô hình Thế giới. Liệu các mô hình điều khiển robot ngày nay có phải là Mô hình Thế giới? Thực ra là không hẳn, mặc dù một số thì đúng là vậy, và ngay cả những mô hình không phải cũng có những đặc điểm chung với kiến trúc của Mô hình Thế giới.

Như thường lệ, sự thổi phồng chỉ làm tăng thêm sự nhầm lẫn. “Dự đoán của tôi là ‘Mô hình Thế giới’ sẽ là từ khóa thịnh hành tiếp theo,” Alexandre LeBrun, Giám đốc điều hành của AMI Labs (chắc chắn là một công ty thuộc loại Mô hình Thế giới) nói với TechCrunch . “Trong vòng sáu tháng, mọi công ty sẽ tự gọi mình là Mô hình Thế giới để huy động vốn.”

Sự thổi phồng chỉ là một phần nhỏ. Điều mà chúng tôi — và tất cả những người khác đang xây dựng trong lĩnh vực này — tin tưởng là Mô hình Thế giới là con đường dẫn đến việc điều khiển máy móc trong thế giới vật lý. Có những khác biệt trong quan điểm về con đường này. Nhưng tất cả chúng tôi đều tin rằng tương lai nằm ở Mô hình Thế giới.

“…rất ít người hiểu được tầm ảnh hưởng sâu rộng của sự thay đổi này…”, Giám đốc Robot và Nhà khoa học ưu tú của NVIDIA, Jim Fan, cho biết gần đây . “Thật không may, trường hợp sử dụng được thổi phồng nhất của Mô hình Thế giới hiện nay là xử lý dữ liệu video AI (và sắp tới là dữ liệu game). Tôi hoàn toàn tự tin rằng năm 2026 sẽ đánh dấu năm đầu tiên Mô hình Thế giới quy mô lớn đặt nền móng thực sự cho robot, và cho trí tuệ nhân tạo đa phương thức nói chung.”

Hôm nay, chúng tôi hân hạnh chào đón các bạn gia nhập nhóm “rất ít người” hiểu được tầm ảnh hưởng sâu rộng của sự thay đổi này. Chúng tôi sẽ chia sẻ lịch sử của World Models, hiện trạng của lĩnh vực này, những giải thích tổng quan về các phương pháp mà mỗi phòng thí nghiệm lớn đang áp dụng, và những niềm tin định hướng cho hướng đi của General Intuition.

Việc bạn có đi cùng chúng tôi hay không là tùy thuộc vào bạn. Nếu bạn chọn viên thuốc màu xanh, câu chuyện sẽ kết thúc. Bạn tỉnh dậy trên giường và tin vào bất cứ điều gì bạn muốn tin. Nếu bạn chọn viên thuốc màu đỏ... bạn sẽ ở lại Xứ sở thần tiên, và chúng tôi sẽ cho bạn thấy hố thỏ sâu đến mức nào.

Ví dụ… làm sao bạn có thể chắc chắn rằng mình không phải là một Đặc vụ đang hoạt động bên trong một Mô hình Thế giới?

Liệu các đặc vụ có thể học hỏi ngay trong giấc mơ của chính mình?

Tỉnh dậy đi, Neo.

Mô hình thế giới không phải là một ý tưởng mới. Chúng là một trong những ý tưởng lâu đời nhất của chúng ta. Kể từ khi con người có khả năng suy nghĩ về vị trí của mình trong vũ trụ, để đặt câu hỏi tại sao chúng ta tồn tại, chúng ta đã suy ngẫm liệu thực tại của chúng ta chỉ là một mô phỏng hay không.

Vào năm 380 trước Công nguyên, Plato, thông qua Socrates, đã đưa ra Ngụ ngôn về Hang động . Hãy tưởng tượng những con người sống dưới lòng đất trong một hang động, cổ bị xích, buộc phải nhìn về phía trước vào những cái bóng trên vách hang. Những người đó sẽ tin rằng những cái bóng đó là hiện thực, trong khi thực tế chúng chỉ là những cái bóng của hiện thực. Đó là ẩn dụ của Plato. Ông cho rằng tất cả chúng ta đều bị mắc kẹt trong hang động, cổ bị xích, nhầm lẫn nhận thức của mình với hiện thực đích thực.

Tám mươi năm sau, triết gia Đạo giáo Trung Quốc Trang Tử đã suy ngẫm những câu hỏi tương tự trong một đoạn văn của tác phẩm Giấc mơ bướm của ông:

Một lần nọ, Trang Chu nằm mơ thấy mình là một con bướm, một con bướm bay lượn vui vẻ, tự mãn làm những gì mình thích. Ông không biết mình là Trang Chu. Bỗng nhiên, ông tỉnh dậy và thấy mình hiện ra, chính là Trang Chu bằng xương bằng thịt. Nhưng ông không biết mình là Trang Chu nằm mơ thấy mình là một con bướm, hay là một con bướm đang mơ thấy mình là Trang Chu. Giữa Trang Chu và một con bướm chắc chắn phải có sự khác biệt! Điều này được gọi là Sự Biến Đổi của Vạn Vật.

Qua nhiều thế kỷ và sự phát triển của khả năng công nghệ, các nhà văn khoa học viễn tưởng đã nối tiếp truyền thống lâu đời của những nhà tư tưởng tìm tòi về bản chất thực sự của hiện thực. Những tác phẩm như The Tunnel Under the World (1955) của Frederik Pohl, Simulacron-3 của Daniel F. Galouye , Non Serviam của Stanislaw Lem, True Names của Vernor Vinge, Neuromancer của William Gibson, Snow Crash của Neal Stephenson – tất cả đều vẽ nên những bức tranh bằng văn bản về thế giới mô phỏng.

Trong một bài phát biểu năm 1977 tại Metz, Pháp, huyền thoại khoa học viễn tưởng Philip K. Dick đã tự tin nói với khán giả : “Chúng ta đang sống trong một thực tại được lập trình bằng máy tính, và manh mối duy nhất chúng ta có được về điều đó là khi một số biến số bị thay đổi² và một số thay đổi xảy ra trong thực tại của chúng ta.”

Lần đầu tiên bạn tiếp xúc với thế giới mô phỏng có lẽ là qua bộ phim Ma Trận. Chúng tôi cũng vậy. Trong kịch bản gốc của phim The Matrix, anh em nhà Wachowski đã hình dung Matrix như một mô phỏng được tạo ra bởi tập thể các bộ não con người được kết nối thành một mạng lưới thần kinh.

Hãng phim cho rằng ý tưởng con người đóng vai trò như máy tính quá khó hiểu đối với khán giả đại chúng, vì vậy họ đã đưa ra quyết định có phần gây tranh cãi về mặt nhiệt động lực học là biến con người thành những cục pin cung cấp năng lượng cho mô phỏng. Đó có lẽ là một quyết định đúng đắn về mặt thương mại. Loạt phim Matrix đã thu về gần 2 tỷ đô la doanh thu toàn cầu. Quan trọng hơn, nó đã giới thiệu cho công chúng ý tưởng về một thế giới mô phỏng được tạo ra không thể phân biệt được với thế giới "thực".

Không có gì lạ khi ý tưởng này đã chiếm lĩnh trí tưởng tượng chung của chúng ta. Nó chắc chắn là kiểu kỳ lạ đúng nghĩa , nhưng cũng đáng ngạc nhiên là rất khó để bác bỏ. Nếu các quan sát giống nhau và các hành động giống nhau, thì quá trình tính toán cũng giống nhau. Nếu những gì bạn thấy giống nhau và những gì bạn làm giống nhau, thì việc bạn đang ở trong một thế giới mô phỏng hay thực tế không quan trọng. Việc bạn đang đi trên một con phố thật hay một con phố mô phỏng cũng không quan trọng. Não bộ của bạn xử lý cả hai giống hệt nhau. Neo không hề biết mình đang ở trong Ma trận cho đến khi Morpheus đánh thức anh ta dậy.

Christopher Nolan, bất chấp sự khó hiểu của khán giả - thậm chí còn thích thú với điều đó - đã cho ra mắt Inception 3 vào năm 2010. Những giấc mơ trong giấc mơ, rồi lại trong giấc mơ.

Luận điểm chính của Nolan là giấc mơ là một không gian có thể kiểm soát được, từ đó thông tin có thể được trích xuất hoặc, quan trọng hơn, được cấy ghép vào.

Nhưng tất cả chỉ là khoa học viễn tưởng thôi, phải không?

Năm 1990, Jürgen Schmidhuber, một nhà nghiên cứu trẻ tại Đại học Kỹ thuật Munich, đã xuất bản cuốn sách "Making the World Differentiable" (Làm cho thế giới trở nên có thể phân biệt được ).

Bài báo đề xuất xây dựng một mạng nơ-ron hồi quy (RNN), một mạng nơ-ron có hai nhiệm vụ: thứ nhất, học cách dự đoán điều gì sẽ xảy ra tiếp theo trong một thế giới mô phỏng và thứ hai, sử dụng thế giới mô phỏng đó để huấn luyện một tác nhân (Agent) hành động trong đó.

Tác nhân ảo sẽ không cần tương tác với môi trường "thực" nào cả. Nó có thể học hỏi bên trong mô hình. Bên trong một giấc mơ.

Năm sau, Richard Sutton, tác giả nổi tiếng của cuốn sách "Bài học cay đắng" , đã nảy ra một ý tưởng tương tự. Trong cuốn "Dyna, một kiến trúc tích hợp cho việc học tập, lập kế hoạch và phản ứng ", ông lập luận rằng việc học tập, lập kế hoạch và phản ứng không nên là những hệ thống riêng biệt. Chúng nên được thống nhất trong một kiến trúc duy nhất. Điều này có nghĩa là về mặt kỹ thuật, hoàn toàn có thể xây dựng một mô hình của thế giới, thực hành bên trong mô hình đó và chuyển những gì đã học trở lại thực tế.

Cả hai bài báo đều mang tầm nhìn xa. Chúng sẽ có tác động lâu dài khi những tiến bộ trong lĩnh vực này cho phép tầm nhìn của các nhà nghiên cứu trở thành hiện thực. Nhưng khi chúng được công bố vào thời điểm đó, cả hai bài báo đều có thể được coi là khoa học viễn tưởng.

Năm 1990, thế giới có sức mạnh tính toán ít hơn khoảng 100 nghìn tỷ đến 1 triệu tỷ lần so với hiện nay. Khi đó, toàn thế giới chỉ có khoảng 10-100 gigaFLOPS tổng công suất. Chỉ riêng năm 2024, hàng chục zettaflops (10^22 FLOPS) sức mạnh tính toán đã được bán ra. Năm 1990, dung lượng dữ liệu kỹ thuật số toàn cầu chỉ khoảng 10 petabyte, một dung lượng nhỏ đến mức chỉ chứa được khoảng 0,005% dữ liệu video mà chúng ta hiện đang sử dụng cho một lần chạy huấn luyện. Đến năm 2026, dung lượng đó đã tăng vọt gấp 22 triệu lần, lên đến 221 zettabyte.

Nhưng công nghệ ngày càng phát triển, và những giấc mơ vĩ đại nhất sẽ không bao giờ chết đi.

Gần ba thập kỷ sau, vào tháng 3 năm 2018, David Ha (khi đó làm việc tại Google Brain) và Schmidhuber đã công bố một bài báo có tiêu đề " World Models" . 4

Bài báo đặt câu hỏi: Liệu các đặc vụ có thể học hỏi ngay trong giấc mơ của chính họ?

Để trả lời câu hỏi của chính mình, Ha và Schmidhuber đã xây dựng một hệ thống giả tưởng gồm ba thành phần: một mô hình thị giác (V) nén các quan sát pixel thô thành một biểu diễn nhỏ gọn, một mô hình bộ nhớ (M) , một mạng nơ-ron hồi quy học cách dự đoán điều gì sẽ xảy ra tiếp theo, và một bộ điều khiển nhỏ (C) quyết định phải làm gì chỉ dựa trên đầu ra của V và M.

Mô hình Thế giới là V + M: nó có thể tiếp nhận các quan sát và hình dung ra các tương lai khả thi. Bộ điều khiển là Tác nhân hoặc chính sách : nó lựa chọn những hành động cần thực hiện.

Bài báo này đã tham gia vào cuộc đối thoại với hàng thế kỷ những thí nghiệm tư tưởng, tiểu thuyết và phim ảnh. Giấc mơ có thể là hiện thực, hiện thực có thể là giấc mơ. Nhưng nếu chúng ta thực sự có thể hành động trong giấc mơ thì sao? Điều đó sẽ ảnh hưởng đến hiện thực như thế nào?

Ha và Schmidhuber đã huấn luyện Mô hình Thế giới của họ dựa trên những quan sát từ một trò chơi đua xe và một trò chơi bắn súng góc nhìn thứ nhất. Mô hình Thế giới đã tạo ra những thế giới kỹ thuật số mới. Sau đó, họ cho phép Đặc vụ thực hành hoàn toàn bên trong những giấc mơ ảo giác của Mô hình Thế giới. Cuối cùng, họ chuyển giao chính sách đã học được trở lại môi trường thực tế.

Và... nó đã thành công. Đặc vụ có thể giải quyết những nhiệm vụ mà nó chưa từng gặp phải trong thực tế. Giấc mơ đã trở thành hiện thực.

Từ góc nhìn khoa học máy tính, điều đó thật gây sốc. Nhưng liệu nó có thực sự đáng ngạc nhiên đến vậy? Chẳng phải con người vẫn thường tương tác với thế giới theo cách này sao?

Ha và Schmidhuber lưu ý rằng con người liên tục vận hành các Mô hình Thế giới trong đầu. Một cầu thủ bóng chày đối mặt với quả bóng ném nhanh 100 dặm/giờ phải quyết định cách vung gậy trước khi tín hiệu hình ảnh về vị trí của quả bóng thậm chí còn chưa đến não bộ của họ. Lý do mà không phải mọi lượt đánh đều dẫn đến bị loại là vì người đánh bóng không phản ứng với thực tế, mà phản ứng với dự đoán của "Mô hình Thế giới nội tại" trong não bộ về vị trí của quả bóng.

Donald Hoffman , Giáo sư Khoa học Nhận thức tại Đại học California, Irvine, đã đưa ý tưởng đó tiến xa hơn rất nhiều. Ông tin rằng tất cả chúng ta đều đang đeo "tai nghe thực tế ảo" giúp đơn giản hóa sự phức tạp đến choáng ngợp của thế giới lượng tử thành một giao diện thân thiện với người dùng. Thực tế quá phong phú, vì vậy chúng ta điều hướng nó thông qua một dạng giấc mơ tỉnh thức dai dẳng.

Bạn có thể đào sâu đến mức nào tùy thích. Nhưng xuyên suốt hành trình, tất cả đều xoay quanh World Models.

Ha và Schmidhuber đã chứng minh rằng máy tính có thể tiếp cận thế giới giống như cách chúng ta: tạo ra các mô phỏng để dự đoán trạng thái tương lai dựa trên hành động, hành động dựa trên những dự đoán đó, cập nhật và lặp lại.

Hành động quan trọng hơn lời nói.

Ngôn ngữ thôi chưa đủ (Mã lệnh cũng vậy)

Chúng ta cùng chơi một trò chơi nhé.

Vỗ tay năm lần.

Bây giờ, thay vì vỗ tay bằng tay thật, tôi muốn các bạn mô tả hành động vỗ tay chỉ bằng lời nói.

Vị trí của chúng trong không gian, vị trí tương đối của chúng so với nhau, tính bằng picogiây. Các điểm tiếp xúc. Âm thanh. Hình dạng bàn tay của bạn khi chúng di chuyển lại gần nhau, chạm vào nhau và tách ra. Cách chúng ép vào nhau. Điều gì xảy ra với không khí giữa hai lòng bàn tay của bạn. Bạn nhìn thấy gì khi vỗ tay. Đừng quên cánh tay của bạn. Chúng uốn cong như thế nào để tạo điều kiện cho việc vỗ tay? Hãy nhớ làm điều này cũng bằng picogiây. Vải trên tay áo của bạn phản ứng như thế nào? Điều gì đang xảy ra ở phía sau? Người bên cạnh bạn có nhận thấy bạn vỗ tay không? Họ đã phản ứng như thế nào? Bạn có bị sa thải vì vỗ tay giữa cuộc họp, làm theo hướng dẫn của một bài luận mà bạn không nên đọc trong khi đáng lẽ bạn phải tập trung vào công việc không? Mô tả cho tôi mạch máu trên trán của sếp bạn. Nó có bị nổi lên không?

Bạn không thể, phải không? Được rồi, dừng lại. Ý tôi đã rõ.

Ngôn ngữ là một sự nén ép thực tại với mức độ mất mát vô cùng lớn.

Ngôn ngữ rất quan trọng, dĩ nhiên rồi. Đó là cách chúng ta giao tiếp và phối hợp. Trò chơi đoán chữ minh họa rằng để truyền đạt ý tưởng, ngôn ngữ có thể hiệu quả hơn nhiều so với hành động. Các chuyên gia ngôn ngữ trị liệu (LLM) rất quan trọng ở khía cạnh đó. Nhưng chỉ ngôn ngữ thôi thì chưa đủ.

Còn về mã lập trình thì sao? Mã lập trình là một dạng ngôn ngữ rất chính xác, giúp máy móc thực hiện các tác vụ.

Tôi yêu cầu Claude "lập trình cho tôi một mô phỏng vỗ tay năm lần trong một môi trường thực tế." Và nó đã tạo ra cho tôi cái này . Trông có vẻ rất đau đớn.

Có một niềm tin rằng, với quy mô lớn, ngôn ngữ và mã lập trình sẽ có thể giải quyết tất cả các thách thức về trí tuệ không gian-thời gian và tạo ra Trí tuệ Nhân tạo Tổng quát (AGI) hoặc Siêu trí tuệ Nhân tạo (ASI).

Một số người cho rằng mã lập trình là chìa khóa để giải quyết nhiều thách thức về trí tuệ nhân tạo trong thế giới thực vì nó có thể hướng dẫn chính xác mọi hình dạng vật lý.

Chúng tôi không đồng tình với quan điểm đó. Mô phỏng dựa trên mã lập trình là một phiên bản kém cỏi của giấc mơ. Nó bị ràng buộc bởi các quy tắc và không thể xử lý được sự hỗn loạn ngẫu nhiên của thực tế.

Để hiểu thế giới, bạn phải tương tác với nó.

Trong cuốn tiểu thuyết Trò Chơi Hạt Thủy Tinh (Das Glasperlenspiel) của Herman Hesse, tác phẩm đã mang về cho ông giải Nobel Văn học năm 1946, độc giả được giới thiệu đến Castalia, một xã hội lý tưởng về trí tuệ trong tương lai, dành riêng cho tư duy thuần túy. Trung tâm của Castalia là một trò chơi phức tạp, trò chơi mang tên Trò Chơi Hạt Thủy Tinh, tổng hợp tất cả kiến thức của nhân loại thành một ngôn ngữ hình thức duy nhất. Người chơi sáng tác "trò chơi" giống như cách người ta sáng tác một bản fugue. Một nước đi có thể liên kết một bản cantata của Bach với một chứng minh toán học, rồi với một đoạn văn của Khổng Tử. Trò chơi là sự trừu tượng tối thượng: toàn bộ nền văn hóa nhân loại được nén lại thành sự thao tác mang tính biểu tượng.

Nhân vật chính, Joseph Knecht, vươn lên trở thành Magister Ludi, Bậc thầy Trò chơi, chức vụ cao nhất ở Castalia. Nhưng anh dần trở nên vỡ mộng. Trò chơi, dù đẹp đẽ đến đâu, cũng thật khô khan . Giới trí thức Castalia đã chìm đắm quá sâu vào thế giới trừu tượng đến nỗi họ mất liên lạc với thế giới thực. Họ có thể miêu tả hiện thực với vẻ đẹp phi thường, nhưng họ không thể hành động trong đó.

Cuối cùng, Knecht quyết định phải rời Castalia và trở thành một gia sư bình thường. Anh chọn thế giới hỗn độn, hiện thực và khó đoán hơn là thế giới biểu tượng hoàn hảo. Anh cống hiến cả đời mình cho Trò chơi, mà việc làm chủ nó đòi hỏi phải hoạt động ở một cấp độ trừu tượng vượt ra ngoài ngôn từ, gần giống như việc mô phỏng thế giới. Nhưng điều đó vẫn chưa đủ. Chỉ riêng biểu tượng, nếu không có sự tiếp xúc với thực tại, cuối cùng cũng sẽ cạn kiệt.

Các Mô hình Ngôn ngữ Lớn chính là những người Castalia của chúng ta. Họ là những bậc thầy thao túng biểu tượng, có khả năng tạo ra các mối liên hệ xuyên suốt toàn bộ kiến thức văn bản của nhân loại. Họ có thể thảo luận về vật lý, sáng tác thơ, viết mã lập trình và giải thích luật bóng chày. Họ thực sự là một trong những thành tựu trí tuệ vĩ đại nhất trong lịch sử loài người.

Nhưng chúng hoạt động hoàn toàn trong lĩnh vực mô phỏng. Chúng có thể mô tả việc vỗ tay, nhưng chúng không thể tự vỗ tay. Chúng có thể nói về trọng lực, nhưng chúng không hiểu trọng lực theo cách mà một đứa trẻ hiểu trọng lực. Chúng không học được, theo cách mà cơ thể học được, thông qua hàng ngàn lần ngã và vấp, ý nghĩa của từ "xuống".

Các mô hình ngôn ngữ dự đoán token tiếp theo cực kỳ chính xác. Vấn đề duy nhất là các token giống như những cái bóng trên vách hang động của Plato. Và bạn không thể lập trình để tạo ra một đám đông khán giả thực tế trong sân vận động, cũng như bạn không thể mô tả con đường đến đó.

Thế giới thực là — hoặc đã từng là — không thể tính toán được .

Nếu ngôn ngữ và mật mã, hai trong số những phát minh mạnh mẽ nhất của nhân loại, không đủ để diễn tả thế giới của chúng ta, thì chúng ta còn lại gì?

Ai2 , hay Viện Allen về Trí tuệ Nhân tạo, là một tổ chức phi lợi nhuận được thành lập và tài trợ bởi cố đồng sáng lập Microsoft, Paul Allen. Viện thực hiện các nghiên cứu và công cụ mã nguồn mở tuyệt vời, bao gồm cả sản phẩm mới nhất MolmoBot, một "bộ mô hình mở dành cho robot, được đào tạo hoàn toàn bằng mô phỏng."

"Kết quả của chúng tôi cho thấy việc chuyển giao dữ liệu không cần xử lý từ mô phỏng sang thực tế để thao tác là khả thi," họ đã đăng tải trên Twitter .

Dhruv Shah, giáo sư tại Princeton và nhà nghiên cứu tại Google DeepMind, người tham gia dự án, chia sẻ : “Trong phạm vi các tác vụ dễ mô phỏng, một chính sách được huấn luyện hoàn toàn bằng mô phỏng cho hiệu suất vượt trội hơn so với các thuật toán VLA tiên tiến nhất được huấn luyện trên hàng nghìn giờ dữ liệu thực!”

Đây là một phát hiện khá đáng kinh ngạc. Một trọng tâm lớn của chúng tôi, và của lĩnh vực Mô hình Thế giới nói chung, là mở rộng phạm vi các nhiệm vụ dễ mô phỏng.

Cách thức hoạt động như sau: Đầu tiên, các Mô hình Thế giới tưởng tượng ra các môi trường thực tế và trạng thái tương lai, lý tưởng nhất là phản hồi lại các hành động hoặc chỉ dẫn theo cách mà thế giới thực và ảo mà chúng đã được huấn luyện phản ứng. Tiếp theo, các Tác nhân được thả vào bên trong các thế giới được tạo ra để huấn luyện. Sau đó, các Tác nhân được đưa trở lại môi trường thực và được kiểm tra về những gì chúng đã học được.

Đây chính là điều mà Ha và Schmidhuber đã chứng minh vào năm 2018. Nó vẫn là lời hứa trọng tâm của lĩnh vực này.

Cách thức xây dựng mô hình thế giới

Mô hình Thế giới (World Models) còn khá mới. Chưa có phương pháp đơn lẻ hay sự kết hợp nào được chứng minh là vượt trội, điều đó có nghĩa là kiến trúc cuối cùng cho các Mô hình Thế giới tổng quát vẫn còn là một câu hỏi bỏ ngỏ. Tuy nhiên, vẫn có những thành phần có thể lặp lại để huấn luyện.

Bắt đầu với dữ liệu ; một lượng lớn dữ liệu quan sát. Thông thường, các quan sát được ghép nối với các hành động được thực hiện để tạo ra chúng. Sự ghép nối này có thể diễn ra theo nhiều cách. Các quan sát (thường là video) được thu thập trước và các hành động được ghi lại cùng với chúng, hoặc được suy luận thông qua một mô hình khác sau đó. Hoặc, mô hình học bằng cách tự thực hiện các hành động, tạo ra các quan sát và dữ liệu hành động của riêng nó thông qua tương tác trực tiếp với môi trường.

Khi dữ liệu huấn luyện là các quan sát hoặc video , các khung hình thô đóng vai trò là các quan sát về một môi trường diễn ra theo thời gian. Lý tưởng nhất là các video này được gắn nhãn với các hành động đã tạo ra chúng (hoặc vì chúng được ghi lại cùng nhau hoặc được suy luận bằng một mô hình AI riêng biệt). Các hành động cung cấp mối liên hệ nhân quả: điều gì đó mà ai đó đã làm khiến môi trường thay đổi. Một đoạn video chơi game trong đó người chơi rẽ trái và camera lia để lộ ra một hành lang. Một đoạn ghi hình lái xe trong đó vô lăng quay và xe đi theo một khúc cua. Một phiên điều khiển từ xa trong đó một cánh tay robot vươn tới và một chiếc cốc di chuyển. Trong mỗi trường hợp, mô hình đều nhìn thấy trước, hành động và sau.

Khi mô hình học hỏi thông qua tương tác , cấu trúc tương tự vẫn được áp dụng — trước, hành động, sau — nhưng dữ liệu được tạo ra ngay lập tức thay vì được thu thập trước, và các hành động xuất phát từ chính sách đang được phát triển của mô hình chứ không phải từ một nguồn bên ngoài.

Mục tiêu cốt lõi của Mô hình Thế giới vẫn không thay đổi: dựa trên trạng thái hiện tại và một hành động hoặc chỉ thị, dự đoán trạng thái tiếp theo. Nó nhận biết khung hình t và hành động a , và cố gắng tạo ra khung hình trạng thái t+1.

Nhưng việc dự đoán thế giới pixel thô cho mọi thứ có thể tốn kém và thường lãng phí. Hầu hết những gì trong một khung hình video không thay đổi từ khoảnh khắc này sang khoảnh khắc khác; các bức tường vẫn ở nguyên vị trí, bầu trời vẫn là bầu trời. Và hầu hết các chi tiết trong một khung hình đều dư thừa; màu sắc của bầu trời, kết cấu của bức tường. Chúng có thể được mô tả dưới dạng ngắn gọn hơn.

Vì vậy, các mô hình thế giới hiện đại liên quan đến một không gian tiềm ẩn : một biểu diễn được nén lại và học được, trong đó chỉ những thông tin thiết yếu nhất được giữ lại.

Bộ mã hóa hình ảnh nén mỗi khung hình thành một vectơ nhỏ gọn (dấu vân tay toán học của cảnh) và mô hình học cách dự đoán dấu vân tay tiếp theo — chứ không phải từng pixel trong khung hình 4K — để phản hồi các hành động. Đây chính là nguồn gốc của hiệu quả tính toán.

Để mô phỏng chính xác sự tiến hóa của thế giới, các mô hình thế giới cũng phải học cách thể hiện đầy đủ các kết quả có thể xảy ra. Sự không chắc chắn về kết quả này thường được gọi là tính ngẫu nhiên của môi trường.

Các mô hình thế giới phải học cách xử lý những gì chúng chưa biết (sự bất định về mặt nhận thức: ví dụ, một mô hình chưa từng nhìn thấy đèn giao thông sẽ không biết rằng đèn đỏ theo sau đèn vàng) và những điều vốn dĩ không thể biết được (sự bất định ngẫu nhiên: tính ngẫu nhiên, giống như tung xúc xắc 5 mặt).

Ngay cả khi mô hình đã học được tất cả những gì có thể biết về hành vi của môi trường (nó đã giảm thiểu sự không chắc chắn "nhận thức" xuống mức tối thiểu), hầu như luôn luôn sẽ có một số sự không chắc chắn vốn có ("sự không chắc chắn ngẫu nhiên") về những gì sẽ xảy ra tiếp theo. Điều này trái ngược với các mô hình video giải trí thuần túy, chỉ cần có khả năng dự đoán sự tiến hóa chung của trạng thái thế giới để hoạt động tốt.

Nếu bạn sử dụng phương pháp dự đoán đơn giản (ví dụ: một mô hình được huấn luyện một cách ngây thơ với Sai số Bình phương Trung bình, hay MSE) để dự đoán một chiếc xe đang rẽ ở góc đường, mô hình có thể trở nên "mờ nhạt" vì nó tính trung bình mọi kết quả có thể xảy ra. Chiếc xe có thể rẽ và vẫn ở làn đường bên trái, hoặc nó có thể nhập vào làn đường bên phải. Quỹ đạo thực sự giảm thiểu sai số lại là quỹ đạo không khả thi khi chiếc xe vẫn ở giữa hai làn đường. Đó chính là sự mờ nhạt, và các mô hình khác nhau xử lý nó theo những cách khác nhau.

Các mô hình khuếch tán tránh được vấn đề này bằng cách khuếch tán dần dần về phía kết quả, cho phép mô hình xác định một chế độ cụ thể của phân bố kết quả, lấy mẫu một tương lai rõ ràng, khả thi thay vì lấy trung bình tất cả các khả năng.

Các mô hình tự hồi quy với nhiều token cho mỗi kết quả cũng xử lý được tính đa phương thức; bằng c

Khu vực:

Binance Launchpool

Play To Earn

Gaming Guild

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan