Trong thị trường vốn mạo hiểm hiện nay, "mô hình thế giới" chắc chắn là từ khóa được nhắc đến nhiều nhất. Chúng ta thấy các công ty "mô hình thế giới" mới hoàn tất các vòng gọi vốn gần như mỗi ngày, với định giá tăng trưởng và danh sách cổ đông ấn tượng. Và trong các thông báo gọi vốn này, một thực tế được nhấn mạnh nhiều lần: một tác nhân siêu thông minh đủ điều kiện không nên chỉ thu thập khả năng thông qua dữ liệu đầu vào, mà nên chủ động hiểu thế giới vật chất giống như con người.
Nhưng Pete Florence đã viết một bức thư ngỏ dài sau khi thành lập công ty, mở đầu bằng câu: "Đừng gắn mác công ty của tôi là mô hình toàn cầu."
Đây thực sự là sụp đổ vai trò. Bởi vì Pete Florence không chỉ đơn thuần là một "doanh nhân". Trước khi bắt đầu công việc kinh doanh riêng, ông đã làm việc tại đội ngũ DeepMind của Google, nâng cấp tiến từ nhà nghiên cứu lên nhà khoa học nghiên cứu cấp cao. Ông là một trong những nhà phát triển cốt lõi của Gemini Robotics, mô hình điều khiển robot được DeepMind phát hành vào năm 2025. Tuy nhiên, thành tựu có ảnh hưởng nhất của ông trong giai đoạn này là vào năm 2023, khi ông và các đồng nghiệp giới thiệu một kiến trúc mô hình robot hoàn toàn mới , "Mô hình Thị giác-Ngôn ngữ-Hành động" (Vision-Language-Action Models), ra thế giới.

(Peter Florence, Nguồn: Mạng xã hội)
Đúng vậy. Nếu "mô hình thế giới" hay "VLA" hiện là hướng đi tiên tiến và được chấp nhận rộng rãi nhất, thì Peter Florence chắc chắn là người tiên phong trên con đường này. Thật đáng kinh ngạc khi một người như ông lại dẫn đầu trong việc loại bỏ nhãn hiệu "mô hình thế giới".
Giờ đây, tác động đã được nhân đôi. Mới đây, Generalist AI, công ty trí tuệ nhân tạo do Peter Florence sáng lập, đã hoàn tất vòng gọi vốn mới, huy động được tổng cộng 400 triệu đô la (khoảng 2,7 tỷ nhân dân tệ) và định giá công ty ở mức 2 tỷ đô la (khoảng 13,55 tỷ nhân dân tệ). Các nhà đầu tư trong vòng này bao gồm NVentures của NVIDIA, NFDG (do các nhà đầu tư thiên thần có tiếng Nat Friedman và Daniel Gross quản lý), Bezos Expeditions (văn phòng gia đình của Bezos), đồng sáng lập Xiaomi Lin Bin, người sáng lập Zoom Eric Yuan và Fei-Fei Li, một trong những nhà khoa học tiêu biểu nhất thế giới trong lĩnh vực mô hình hóa.
"Mục tiêu" quan trọng hơn "nhãn mác".
Tại sao Peter Florence, một trong những người sáng lập chính của mô hình thế giới, lại phản đối mạnh mẽ việc bị gán mác là "mô hình thế giới"? Tại sao Fei-Fei Li, một trong những học giả tiêu biểu nhất trong lĩnh vực mô hình thế giới, lại dùng tiền để hỗ trợ một người công khai "dị giáo" như vậy? Câu chuyện có thể bắt đầu từ năm 2019.
Thời điểm đó, Pete Florence đang theo học tiến sĩ ngành Khoa học Máy tính tại MIT, tập trung vào các lĩnh vực như điều khiển robot, thị giác máy tính và xử lý ngôn ngữ tự nhiên. Từ góc nhìn này, Pete Florence là một cá nhân "được đào tạo bài bản" với hướng nghiên cứu và bối cảnh học thuật truyền thống; anh ấy không phải là người cần dựa vào "sự khác thường" để có được nguồn lực. Tuy nhiên, vấn đề là MIT đã chỉ định cho anh ấy một người hướng dẫn tên là Russ Tedrake.
Lars Tedrek là ai? Trước hết, ông ấy chắc chắn là một nhân vật kiệt xuất trong giới học thuật. Năm 2019, ông giữ chức Giáo sư Kỹ thuật Điện và Khoa học Máy tính tại MIT, kiêm Giám đốc Trung tâm Robot tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo. Hàng năm, ông dẫn dắt đội MIT tham gia cuộc thi DARPA Robotics Challenge danh giá. Ngoài lĩnh vực học thuật, ông còn là Phó Chủ tịch Trung tâm Nghiên cứu Robot tại Viện Nghiên cứu Toyota. Có thể nói rằng Lars Tedrek là một trong những học giả xuất sắc nhất trong lĩnh vực robot, với nguồn lực dồi dào để giúp Pete Florence trẻ tuổi hiện thực hóa ước mơ học thuật của mình.
Tuy nhiên, theo nhận định của chính Lars Tedrek, điều khiến ông say mê không phải là mã lập trình, mà là "vật lý". Trong phần tự giới thiệu, Lars Tedrek nhớ lại rằng con đường học thuật của ông trong lĩnh vực khoa học máy tính bắt nguồn từ nghiên cứu về "robot hai chân", nơi ông quan sát thấy "các đặc tính động lực phong phú", điều này đã khơi dậy sự quan tâm mạnh mẽ của ông đến "điều khiển động lực chất lỏng phức tạp". Do đó, không giống như các nhà nghiên cứu khác, khi bước vào lĩnh vực này, ban đầu nghiên cứu cách làm cho robot gắp táo hoặc gấp chăn, nghiên cứu ban đầu của ông tập trung vào cách điều khiển "máy bay hoặc máy bay cánh vỗ sau khi bị chết máy" và cách "vượt qua các chướng ngại vật dày đặc ở tốc độ cao".
Bối cảnh này cho thấy Lars Tedrek rất coi trọng việc "hiểu biết thế giới vật lý". Trang web của MIT mô tả các đặc điểm học thuật của Lars Tedrek như sau: "Nghiên cứu của giáo sư tập trung vào việc tìm kiếm các giải pháp điều khiển thanh lịch cho các hệ thống động lực thú vị (thiếu điều khiển, ngẫu nhiên và/hoặc khó mô hình hóa) và xây dựng các hệ thống này để kiểm chứng thực nghiệm. Ông đặc biệt quan tâm đến mối liên hệ giữa cơ học (đặc biệt là cơ học phi trơn) và lý thuyết học máy/tối ưu hóa để đạt được thiết kế điều khiển mạnh mẽ cho các hệ thống cơ khí phức tạp."
Lớn lên trong môi trường khoa học máy tính, Peter Florence tự nhiên trở thành một nhân vật "thiên về vật lý" trong lĩnh vực này. Ví dụ, thành tựu học thuật tiêu biểu nhất của ông trong quá trình học tiến sĩ là bài báo có tiêu đề "Sự tương ứng tự giám sát trong học tập chính sách chuyển động trực quan". Bài báo này đề xuất một phương pháp , thông qua học tập bắt chước, cho phép robot hoàn thành nhiệm vụ điều khiển phức tạp chỉ trong lần lần thực hiện, đồng thời cho phép chúng khái quát hóa sang các loại đối tượng khác nhau và thích ứng với cấu hình của các đối tượng biến dạng. Bài báo này đã giành được Giải thưởng Bài báo xuất sắc nhất năm 2020 của IEEE (Viện Kỹ thuật Điện và Điện tử) trong lĩnh vực Robot và Tự động hóa.
Dĩ nhiên, việc ông thuộc "trường phái tư tưởng" nào không quan trọng; điều quan trọng là, chịu ảnh hưởng bởi hoàn cảnh đó, Pete Florence đã phát triển một cách tư duy hoàn toàn khác biệt. Lượng lớn nhà nghiên cứu thường sử dụng các công nghệ hiện có, sau đó tiến hành thí nghiệm để xác định tính khả thi của công nghệ, và cuối cùng là xác định các kịch bản ứng dụng. Tuy nhiên, Pete Florence tin rằng trình tự đúng phải là "trước tiên đặt ra các mục tiêu cụ thể", rồi sau đó mới thiết kế lộ trình công nghệ.
Sau khi gia nhập đội ngũ DeepMind của Google, Pete Florence bắt đầu công việc theo hướng này, với thành tựu lớn đầu tiên là Transporter Network, kiến trúc mô hình robot thế hệ đầu tiên của Google, được ra mắt vào năm 2021. Trong bài báo công bố mô hình này, Florence tuyên bố rằng việc sắp xếp các vật phẩm lẽ ra phải là một kỹ năng rất cơ bản, nhưng đối với robot, việc hoàn thành hành động này liên quan đến "lý luận nhận thức cấp cao và cấp thấp", đòi hỏi phải xem xét vị trí và thứ tự đặt sách, đồng thời đảm bảo các cạnh của sách được thẳng hàng để tạo thành một chồng sách gọn gàng.
Mạng lưới vận chuyển (Transporter Network) là một mô hình kiến trúc được thiết kế để "làm cho các hành động đơn giản trở nên đơn giản hơn", cho phép robot thực hiện nhiều thao tác khác nhau dựa trên thị giác một cách tổng quát. Nó có tốc độ huấn luyện nhanh và ít phụ thuộc vào hoàn cảnh huấn luyện.
Việc ra mắt kiến trúc VLA vào năm 2023 với sự hợp tác của đội ngũ DeepMind là một bước tiến tự nhiên dựa trên ý tưởng này. Trong bài báo mở ra kỷ nguyên vàng hiện tại của mô hình hóa, các tác giả đã tuyên bố rằng họ hy vọng kiến trúc VLA có thể "cải thiện đáng kể khả năng khái quát hóa sang các đối tượng mới, diễn giải các hướng dẫn không có trong dữ liệu huấn luyện của robot (chẳng hạn như đặt các đối tượng lên các số hoặc biểu tượng cụ thể) và thực hiện suy luận cơ bản dựa trên hướng dẫn của người dùng (chẳng hạn như nhặt đối tượng nhỏ nhất hoặc lớn nhất, hoặc nhặt đối tượng gần nhất với các đối tượng khác)."
Trở lại câu hỏi ban đầu, tại sao Peter Florence, một trong những người sáng lập chính của mô hình thế giới, lại phản đối việc bị gán mác là "mô hình thế giới"? Câu trả lời cũng tương tự: Peter Florence cho rằng"mục tiêu" quan trọng hơn "nhãn mác".
Theo quan điểm của ông, sự nhiệt tình hiện tại đối với các mô hình toàn cầu thực chất là "do ý tưởng thúc đẩy". Ví dụ, một phần đáng kể của sự nhiệt tình này có thể được quy cho sự phấn khích của thị trường vốn khi phát hiện ra những điểm không đồng thuận trong các lĩnh vực đang phát triển mạnh. Hơn nữa, nếu chúng ta thực sự muốn đưa robot vào công việc và cuộc sống của mình và tạo ra năng suất, thì việc xây dựng một "mô hình toàn cầu" rõ ràng không phải là mục tiêu. Mục tiêu thực sự nên là để robot hoàn thành nhiệm vụ chưa từng có với tỷ lệ thành công và tốc độ cực cao, hoàn toàn không cần bất kỳ dữ liệu nhiệm vụ cụ thể nào.
Đây chính xác là lý do tại sao Pete Florence quyết định rời Google DeepMind và bắt đầu công việc kinh doanh riêng. Tại hội nghị NVIDIA GTC năm 2025, Pete Florence lần đầu tiên xuất hiện trước công chúng với tư cách là người đồng sáng lập và CEO của Generalist AI. Ông nói: "Chúng tôi quyết tâm chế tạo những robot có thể làm bất cứ điều gì... Hãy tưởng tượng xem sẽ như thế nào nếu chi phí biên của lao động thủ công giảm xuống bằng không."
Tỷ lệ thành công 99%
Bên cạnh những ý tưởng công nghệ độc đáo, con đường khởi nghiệp của Pete Florence cũng có vẻ khá khác thường.
Về lý thuyết, những doanh nhân có lý lịch như vậy chắc chắn sẽ được các nhà đầu tư mạo hiểm săn đón nồng nhiệt hiện nay. Yang Likun, Ilya Sutskevich và Mila Mulatti là những ví dụ; tất cả đều hoàn thành vòng gọi vốn ban đầu vượt quá 1 tỷ đô la gần như ngay sau khi công ty của họ được đăng ký (hoặc thậm chí trước đó). Tuy nhiên, Generalist AI của Pete Florence chỉ nhận được đầu tư từ một số ít tổ chức trong giai đoạn đầu, bao gồm Nvidia, văn phòng của Bezos và NFDG. Nếu không nhờ NVentures, nhánh đầu tư mạo hiểm của Nvidia, tổ chức " Bàn tròn các công ty được đầu tư" tại hội nghị GTC năm 2025, thì sẽ không ai biết rằng ông ấy đã rời đi để bắt đầu công việc kinh doanh riêng.
Tại sao lại như vậy? Câu trả lời khả dĩ nhất là đó là sự lựa chọn có chủ đích của Pete Florence. Như đã đề cập ở trên, Pete Florence gia nhập đội ngũ DeepMind của Google ngay sau khi tốt nghiệp và làm việc ở đó từ năm 2019 đến năm 2025, mà không có bất kỳ kinh nghiệm làm việc nào khác trong khoảng thời gian đó. Nói cách khác, Trí tuệ nhân tạo tổng quát (Generalist AI) là kinh nghiệm khởi nghiệp đầu tiên của anh ấy, và việc cực kỳ thận trọng là hoàn toàn cần thiết.
Thực tế, tại hội nghị GTC của NVIDIA năm 2025, nơi ông lần xuất hiện trước công chúng với tư cách là một doanh nhân, Pete Florence đã thể hiện rõ sự "thận trọng" của mình. Ngoài việc nói với mọi người rằng ông đang chế tạo "robot", ông không tiết lộ bất kỳ định hướng việc kinh doanh cụ thể nào, mà chỉ nói thẳng: "Chúng tôi vẫn đang giữ bí mật."
Mãi đến tháng 11 năm 2025, mọi người lần thấy được những chi tiết cụ thể về việc kinh doanh của Generalist AI. Vào tháng 11 năm 2025, Generalist AI đã phát hành mô hình trí tuệ thể hiện thế hệ đầu tiên của họ, GEN-0. Trong phần giới thiệu chính thức, Generalist AI tuyên bố rằng GEN-0 kết hợp những ưu điểm của mô hình hình ảnh và ngôn ngữ, đồng thời vượt qua— Gen-0 có thể nắm bắt được phản xạ ở cấp độ con người và hiểu biết thông thường về vật lý.
Tóm lại, nó có thể liên tục cải thiện khả năng của mình khi kích thước mô hình và dữ liệu huấn luyện tăng lên, vượt qua nút thắt cổ chai của các mô hình nhỏ trước đây; nó có thể suy nghĩ và hành động đồng thời như con người, đưa ra phản hồi nhanh chóng và tự nhiên trong hoàn cảnh vật lý thực tế; nó tự nhiên thích ứng với các loại robot khác nhau mà không cần sửa đổi thêm; quan trọng hơn, nó dựa trên lượng lớn dữ liệu hoạt động thực tế, không còn bị hạn chế bởi sự khan hiếm dữ liệu và có thể linh hoạt điều chỉnh thành phần dữ liệu huấn luyện. Lượng lớn phương tiện truyền thông công nghệ đã chỉ ra rằng GEN-0 chứng minh rằng các "quy luật mở rộng" toán học thúc đẩy các mô hình ngôn ngữ lớn như ChatGPT cũng áp dụng cho chuyển động vật lý.
Tuy nhiên, GEN-0 không hoàn hảo. Ví dụ, GEN-0 không giải quyết được vấn đề dữ liệu vốn là trở ngại lớn trong lĩnh vực trí tuệ thể hiện. Do đó, vào tháng 4 năm 2026, Generalist AI đã nhanh chóng nâng cấp lên phiên bản mới GEN-1.

(“Cánh tay robot”, nguồn: Mạng xã hội Trí tuệ nhân tạo tổng quát)
Để giải quyết thách thức dữ liệu, Generalist AI đã phát triển một thiết bị đeo được để thu thập các chuyển động nhỏ và thông tin hình ảnh từ con người khi thực hiện nhiệm vụ thủ công. Generalist AI cho biết trong quá trình phát triển GEN-1, họ đã thu thập hơn 500.000 giờ "dữ liệu tương tác vật lý ở cấp độ petaflop" bằng cách sử dụng các cánh tay robot này để huấn luyện mô hình vật lý của nó. Sau quá trình huấn luyện kỹ lưỡng, Generalist AI khẳng định rằng GEN-1 đạt tỷ lệ thành công 99% trong nhiệm vụ cơ khí lặp đi lặp lại nhưng đòi hỏi sự tỉ mỉ như gấp hộp các tông, đóng gói điện thoại và bảo trì máy hút bụi robot, với tốc độ nhanh hơn khoảng ba lần so với phiên bản tiền nhiệm, GEN-0, và chỉ trong khoảng một giờ.
Do đó, Generalist AI tự hào tuyên bố rằng mô hình vật lý của GEN-1 đang tiến gần đến một điểm uốn tương tự như GPT-3, với hiệu suất của một số nhiệm vụ bắt đầu "đạt đến mức cần thiết để triển khai trong hoàn cảnh khả thi về mặt thương mại", và "chúng ta có thể kỳ vọng mỗi thế hệ mô hình mới sẽ mang đến sê-ri nhiệm vụ mới ngày càng phức tạp hơn nhiệm vụ chúng ta có thể làm chủ được."
Trong bài đăng trên blog chính thức của mình, Peter Florence đã chỉ ra rằng quá trình phát triển GEN-1 là minh chứng rõ nhất cho triết lý công nghệ cá nhân của ông: Đầu tiên, ông đặt ra một mục tiêu hợp lý: robot có thể hoàn thành nhiều nhiệm vụ chưa từng thấy trước đây với tỷ lệ thành công và tốc độ cực cao, hoàn toàn không cần bất kỳ dữ liệu cụ thể nào cho nhiệm vụ . Tiếp theo, dựa trên mục tiêu này, ông đã thiết lập một lộ trình giải pháp cho phép sử dụng một lượng nhỏ dữ liệu robot (được gọi là X) cho nhiệm vụ cụ thể, đạt được mức độ thực thi cao cho nhiệm vụ đó, và sau đó liên tục giảm X đồng thời cải thiện hiệu suất.
Đến thời điểm này, câu hỏi mà chúng ta đã nêu ra trước đó đã được giải đáp. Việc sản phẩm của Generalist AI có thực sự được gọi là "mô hình thế giới" hay không không còn quan trọng nữa. Miễn là bạn nhìn thấy tiềm năng trong ngành công nghiệp trí tuệ thể hiện và tin rằng robot có thể được ứng dụng rộng rãi trong sản xuất thực tế, thì Generalist AI thực sự là một khoản đầu tư đáng giá. Và vòng gọi vốn cho Generalist AI đã được hoàn tất nhanh chóng chỉ trong vòng hai tháng kể từ khi ra mắt GEN-1.
Theo các báo cáo, các cổ đông hiện hữu Nvidia, Bezos Expeditions và NDFG đều đã quyết định tái đầu tư, thậm chí tăng gấp đôi số vốn đầu tư. Ngoài ra, các nhà đầu tư mới bao gồm người đồng sáng lập Xiaomi Lin Bin, người sáng lập Zoom Eric Yuan, nhà khoa học Trung Quốc Fei-Fei Li, cũng như các nhà đầu tư tổ chức như Radical Ventures, 8VC, Union Square Ventures, Hanabi Capital và Norwest.
Nói cách khác, đến tháng 6 năm 2026, Pete Florence không còn cần phải chứng minh bản thân nữa. Ít nhất thì những lời tuyên bố mà ông đưa ra trong những năm qua—chẳng hạn như khi Pete Florence, người vừa mới bắt đầu kinh doanh vào năm 2025, nói trong một podcast rằng, "Robot đa năng không phải là để làm đủ mọi thứ, mà là để đủ chuyên nghiệp để hữu ích trong nhiệm vụ thực tế"—đã và đang trên đà "thực hiện lời hứa của mình".
Bài viết này được đăng tải từ tài khoản WeChat chính thức "Touzhong.com", tác giả: Pu Fan.



