Theo các chuyên gia công nghệ ám ảnh thị trường và những người hoài nghi chuyên nghiệp, bong bóng trí tuệ nhân tạo đã vỡ và mùa đông đã trở lại. Fei-Fei Li không tin điều đó. Trên thực tế, Li - người được mệnh danh là “mẹ đỡ đầu của AI” - đang đặt cược vào điều ngược lại. Bà đang tạm nghỉ việc bán thời gian tại Đại học Stanford để đồng sáng lập một công ty có tên World Labs . Trong khi AI tạo sinh hiện tại dựa trên ngôn ngữ , bà nhìn thấy một tương lai nơi các hệ thống xây dựng nên những thế giới hoàn chỉnh với các quy luật vật lý, logic và chi tiết phong phú của thực tại vật lý của chúng ta. Đó là một mục tiêu đầy tham vọng, và bất chấp những người bi quan cho rằng tiến bộ trong AI đã đạt đến một điểm bão hòa ảm đạm, World Labs đang trên đà huy động vốn nhanh chóng. Công ty khởi nghiệp này có lẽ còn khoảng một năm nữa mới có sản phẩm - và hoàn toàn không rõ sản phẩm sẽ hoạt động tốt như thế nào khi và nếu nó ra mắt - nhưng các nhà đầu tư đã rót vào 230 triệu đô la và được cho là đang định giá công ty khởi nghiệp non trẻ này ở mức một tỷ đô la.
Khoảng một thập kỷ trước, Li đã giúp AI vượt qua khó khăn bằng cách tạo ra ImageNet, một cơ sở dữ liệu hình ảnh kỹ thuật số được thiết kế riêng, cho phép mạng nơ-ron trở nên thông minh hơn đáng kể. Bà cảm thấy rằng các mô hình học sâu hiện nay cần một sự thúc đẩy tương tự nếu AI muốn tạo ra những thế giới thực sự, cho dù đó là những mô phỏng thực tế hay những vũ trụ hoàn toàn tưởng tượng. Những George RR Martin tương lai có thể sẽ sáng tác những thế giới trong mơ của họ dưới dạng gợi ý thay vì văn xuôi, mà sau đó bạn có thể hiển thị và khám phá. “Thế giới vật lý đối với máy tính được nhìn thấy thông qua camera, và bộ não máy tính nằm sau các camera,” Li nói. “Việc biến tầm nhìn đó thành lý luận, tạo ra và cuối cùng là tương tác liên quan đến việc hiểu cấu trúc vật lý, động lực vật lý của thế giới vật lý. Và công nghệ đó được gọi là trí tuệ không gian.” World Labs tự gọi mình là một công ty trí tuệ không gian, và số phận của nó sẽ giúp xác định liệu thuật ngữ đó trở thành một cuộc cách mạng hay một trò đùa.
Li đã say mê trí tuệ không gian trong nhiều năm. Trong khi mọi người đang phát cuồng vì ChatGPT, cô và một cựu sinh viên, Justin Johnson, đã hào hứng bàn luận qua điện thoại về thế hệ tiếp theo của AI. “Thập kỷ tới sẽ là về việc tạo ra nội dung mới đưa thị giác máy tính, học sâu và AI ra khỏi thế giới internet, và tích hợp chúng vào không gian và thời gian,” Johnson, hiện là trợ lý giáo sư tại Đại học Michigan, cho biết.
Li quyết định thành lập công ty vào đầu năm 2023, sau một bữa tối với Martin Casado, một người tiên phong trong lĩnh vực mạng ảo, hiện là đối tác tại Andreessen Horowitz. Đây là công ty đầu tư mạo hiểm nổi tiếng với sự đón nhận gần như cuồng nhiệt đối với trí tuệ nhân tạo (AI). Casado cho rằng AI đang đi theo con đường tương tự như trò chơi điện tử, bắt đầu từ văn bản, chuyển sang đồ họa 2D, và giờ đây có hình ảnh 3D tuyệt đẹp. Trí thông minh không gian sẽ thúc đẩy sự thay đổi. Cuối cùng, ông nói, “Bạn có thể lấy cuốn sách yêu thích của mình, đưa nó vào một mô hình, và sau đó bạn thực sự bước vào đó và xem nó diễn ra trong thời gian thực, một cách sống động.” Bước đầu tiên để biến điều đó thành hiện thực, Casado và Li đồng ý, là chuyển từ các mô hình ngôn ngữ lớn sang các mô hình thế giới lớn.
Li bắt đầu tập hợp một nhóm, với Johnson là người đồng sáng lập. Casado đề xuất thêm hai người nữa—một trong số đó là Christoph Lassner, người từng làm việc tại Amazon, Meta's Reality Labs và Epic Games. Ông là người phát minh ra Pulsar , một lược đồ kết xuất dẫn đến kỹ thuật nổi tiếng có tên gọi là 3D Gaussian Splatting . Nghe có vẻ như tên một ban nhạc indie tại một bữa tiệc toga ở MIT, nhưng thực chất đó là một cách để tổng hợp các cảnh, chứ không phải là các đối tượng riêng lẻ. Người được Casado đề xuất khác là Ben Mildenhall, người đã tạo ra một kỹ thuật mạnh mẽ có tên gọi là NeRF—neural radiance fields—biến đổi hình ảnh pixel 2D thành đồ họa 3D. “Chúng tôi đã đưa các đối tượng trong thế giới thực vào VR và làm cho chúng trông hoàn toàn giống thật,” ông nói. Ông đã rời bỏ vị trí nhà khoa học nghiên cứu cấp cao tại Google để gia nhập nhóm của Li.
Một mục tiêu hiển nhiên của mô hình thế giới quy mô lớn là truyền tải "cảm nhận thế giới" vào robot. Điều đó quả thực nằm trong kế hoạch của World Labs, nhưng chưa phải bây giờ. Giai đoạn đầu tiên là xây dựng một mô hình với sự hiểu biết sâu sắc về không gian ba chiều, tính vật lý và các khái niệm về không gian và thời gian. Tiếp theo sẽ là giai đoạn mà các mô hình hỗ trợ Thực tế tăng cường. Sau đó, công ty có thể bắt tay vào lĩnh vực robot. Nếu tầm nhìn này được hiện thực hóa, các mô hình thế giới quy mô lớn sẽ cải thiện ô tô tự lái, nhà máy tự động hóa và thậm chí có thể cả robot hình người.
Đó là một chặng đường dài phía trước, và không phải là điều chắc chắn. World Labs hứa hẹn sẽ ra mắt sản phẩm vào năm 2025. Khi tôi hỏi kỹ hơn các nhà sáng lập về chính xác sản phẩm đó là gì và khách hàng tiềm năng là ai—những vấn đề như World Labs sẽ kiếm tiền như thế nào—họ nhấn mạnh rằng họ chỉ mới bắt đầu. “Có rất nhiều rào cản cần vượt qua, rất nhiều điều chưa biết,” Li nói. “Tất nhiên, chúng tôi là đội ngũ giỏi nhất thế giới để tìm ra lời giải cho những điều chưa biết đó.”
Casado có quan điểm cụ thể hơn một chút. Giống như ChatGPT hay Claude của Anthropic, ông lưu ý rằng mô hình có thể chính là sản phẩm—một nền tảng mà người khác sử dụng trực tiếp hoặc dùng để lưu trữ các ứng dụng khác. Khách hàng có thể bao gồm các công ty game hoặc hãng phim. Tôi nhớ mình từng viết về việc Pixar đã tiêu tốn vô số nguồn lực vào những thứ như lông quái vật hay chuyển động của nước. Hãy tưởng tượng làm điều đó chỉ với một câu hỏi ngắn gọn.
World Labs không phải là công ty duy nhất giải quyết cái mà một số người gọi là trí tuệ nhân tạo vật lý. “Xây dựng các mô hình nền tảng cho robot hình người nói chung là một trong những vấn đề thú vị nhất cần giải quyết trong lĩnh vực trí tuệ nhân tạo hiện nay”, Giám đốc điều hành Nvidia, Jensen Huang, cho biết hồi đầu năm nay. Gần đây tôi đã viết về một công ty có tên Archetype cũng đang theo đuổi hướng đi đó. Nhưng Casado khẳng định rằng tham vọng, tài năng và tầm nhìn của World Labs là độc nhất vô nhị. “Tôi đã đầu tư gần 10 năm, và đây là đội ngũ tốt nhất mà tôi từng gặp”, ông nói. Việc một nhà đầu tư mạo hiểm tăng vốn đầu tư là điều phổ biến, nhưng ông không chỉ đầu tư tiền vào công ty này: Lần đầu tiên kể từ khi trở thành nhà đầu tư mạo hiểm, ông là thành viên bán thời gian của nhóm, dành một ngày mỗi tuần tại công ty.
Các công ty đầu tư mạo hiểm khác cũng đang góp vốn, bao gồm Radical Ventures, NEA và (không có gì ngạc nhiên) quỹ Quỹ đầu tư mạo hiểm của Nvidia, cũng như một danh sách các nhà đầu tư thiên thần nổi tiếng như Marc Benioff, Reid Hoffman, Jeff Dean, Eric Schmidt, RON Conway và Geoff Hinton. (Vì vậy, bạn có thể thấy ông trùm trí tuệ nhân tạo đang hỗ trợ bà trùm của lĩnh vực này.) Cố nhà đầu tư Susan Wojcicki cũng đã đầu tư trước khi qua đời đột ngột vào tháng trước.
Liệu tất cả những người thông minh đó có thể sai? Tất nhiên rồi. Bạn không cần phải nheo mắt quá nhiều để thấy những lời hứa của World Lab trùng lặp với một thuật ngữ thời thượng gần đây đã nhanh chóng biến mất: metaverse. Những người sáng lập World Lab lập luận rằng cơn sốt ngắn ngủi đó là quá sớm, một hiện tượng nhất thời dựa trên một số phần cứng đầy hứa hẹn nhưng thiếu nội dung tương tác phù hợp. Họ ngụ ý rằng các mô hình thế giới lớn có thể giải quyết vấn đề đó. Có lẽ, không thế giới nào trong số đó sẽ hình dung trí tuệ nhân tạo bị mắc kẹt ở một trạng thái trì trệ.
Năm ngoái, Fei-Fei Li đã cho ra mắt cuốn sách kết hợp hồi ký và câu chuyện tình yêu với trí tuệ nhân tạo, " Những Thế Giới Tôi Thấy ". Khi đó, tôi đã khen ngợi cuốn sách và thảo luận với cô ấy trong một bài viết trên Plaintext với tiêu đề "Fei-Fei Li Khởi Xướng Cuộc Cách Mạng Trí Tuệ Nhân Tạo Bằng Cách Nhìn Như Một Thuật Toán". Giờ đây, cô ấy hy vọng sẽ xây dựng những thế giới mà chưa ai từng thấy trước đây.
Li là một người kín đáo và không thoải mái khi nói về bản thân. Nhưng bà đã khéo léo tìm cách kết hợp kinh nghiệm của mình với tư cách là một người nhập cư đến Hoa Kỳ năm 16 tuổi, không biết tiếng Anh, và vượt qua nhiều trở ngại để trở thành một nhân vật chủ chốt trong lĩnh vực công nghệ quan trọng này. Trên con đường đến vị trí hiện tại, bà cũng từng là giám đốc Phòng thí nghiệm AI Stanford và nhà khoa học trưởng về AI và máy học tại Google Cloud. Li cho biết cuốn sách của bà được cấu trúc như một chuỗi xoắn kép, với hành trình cá nhân và quỹ đạo phát triển của AI đan xen vào nhau tạo thành một tổng thể xoắn ốc. “Chúng ta tiếp tục nhìn nhận bản thân thông qua hình ảnh phản chiếu của chính mình,” Li nói. “Một phần của sự phản chiếu đó chính là công nghệ. Thế giới khó nhìn nhận nhất chính là bản thân chúng ta.”
Các mạch truyện được kết nối chặt chẽ nhất trong câu chuyện về quá trình tạo ra và triển khai ImageNet của bà. Li kể lại quyết tâm của mình khi bất chấp những người, kể cả các đồng nghiệp, nghi ngờ khả năng gắn nhãn và phân loại hàng triệu hình ảnh, với ít nhất 1.000 ví dụ cho mỗi hình ảnh trong một danh sách dài vô tận các danh mục, từ gối ôm đến đàn vĩ cầm. Nỗ lực này không chỉ đòi hỏi sự kiên định về mặt kỹ thuật mà còn cả mồ hôi của hàng ngàn người (tiết lộ: Amazon's Mechanical Turk đã giúp thực hiện điều đó). Dự án chỉ có thể được hiểu rõ khi chúng ta hiểu được hành trình cá nhân của bà. Sự dũng cảm khi đảm nhận một dự án đầy rủi ro như vậy đến từ sự ủng hộ của cha mẹ bà, những người dù gặp khó khăn về tài chính vẫn kiên quyết yêu cầu bà từ chối một công việc béo bở trong giới kinh doanh để theo đuổi ước mơ trở thành một nhà khoa học. Việc thực hiện dự án táo bạo này sẽ là sự khẳng định tối cao cho sự hy sinh của họ.
Tom hỏi, “Khi điện thoại thông minh mới ra mắt, người ta thường bàn luận về phép lịch sự nơi công cộng liên quan đến việc sử dụng chúng – giờ đây, việc thấy nhiều người dán mắt vào điện thoại ở những nơi công cộng là chuyện thường thấy. Bạn nghĩ phép lịch sự khi sử dụng thiết bị đeo đầu thực tế ảo tăng cường (AR ) sẽ như thế nào?”
Chào Tom, cảm ơn câu hỏi của bạn. Quy tắc ứng xử khi sử dụng AR sẽ không đơn giản như với điện thoại, nơi mà mọi thứ đều rất dễ nhận ra khi chúng ta tập trung vào màn hình cảm ứng. Đỉnh cao của Thực tế tăng cường sẽ đến khi các công ty tìm ra cách tích hợp nó vào kính mắt siêu nhẹ—giống như kính Ray-Ban nổi tiếng của Meta, hiện chưa hỗ trợ AR nhưng sẽ có trong tương lai. Rất nhiều thứ chúng ta thấy trên điện thoại hiện nay sẽ có thể đọc được trên màn hình hiển thị thông tin trên kính mắt.
Đến lúc đó, sẽ không còn quá rõ ràng rằng đằng sau cặp kính râm, chúng ta đang mải mê với TikTok, nhắn tin và Candy Crush hơn là những người cùng ăn tối với mình. Ở những nơi công cộng, có thể trông không giống như mọi người đang ở một nơi khác, nhưng thực tế là họ đang ở một nơi khác. Tôi dự đoán rằng công nghệ phản hồi xúc giác sẽ rất cần thiết để cảnh báo mọi người khi tàu của họ sắp rời đi, hoặc họ đang chắn lối đi, hoặc họ vừa bị cướp. Và một cuộc trò chuyện điển hình trong bữa tối có thể diễn ra như thế này: “Bạn có nghe thấy những gì tôi vừa nói không?” [Im lặng.] “BẠN CÓ NGHE THẤY NHỮNG GÌ TÔI VỪA NÓI KHÔNG? [Dừng lại, chạm vào cạnh kính.] “Vâng, tất nhiên là tôi đang chú ý.” Điều này sẽ xảy ra ở mọi bàn trong nhà hàng!
Dự đoán của tôi về phép lịch sự? Mọi người sẽ giao tiếp bằng tin nhắn ngay cả khi đứng cạnh nhau, bởi vì những gì họ nói sẽ thuyết phục hơn nếu được truyền trực tiếp đến mắt và tai người nghe. Vì vậy, đừng phàn nàn về việc mọi người cứ nhìn chằm chằm vào điện thoại, vì những ngày tồi tệ hơn vẫn còn ở phía trước.
Bạn có thể gửi câu hỏi đến mail@wired.com . Vui lòng ghi "HỎI LEVY" vào dòng tiêu đề.
Còn gì nóng hơn được nữa chứ? Cứ chờ xem.
Dưới đây là tất cả những thông tin được công bố tại sự kiện tháng 9 của Apple.
Mặc dù iPhone 16 thu hút được nhiều sự chú ý, nhưng AirPods, thiết bị hoạt động như máy trợ thính, có lẽ là bước đi quan trọng nhất của Apple.
Cư dân của một thị trấn khai thác dầu mỏ ở Texas không còn thân thiện với nhau khi một mỏ khai thác bitcoin xuất hiện.
Theo Mark Cuban, ông ấy không hề trải qua khủng hoảng tuổi trung niên .
Đừng bỏ lỡ các ấn bản đặc biệt dành riêng cho người đăng ký trong tương lai của chuyên mục này. Hãy đăng ký WIRED (giảm giá 50% cho độc giả của Plaintext) ngay hôm nay.






