Trong các xu hướng đổi mới AI trước đây, đổi mới robot sẽ được hưởng lợi và sự bùng nổ AI lần cũng không ngoại lệ. Tuy nhiên, hầu hết các robot hiện nay đều là robot chuyên dụng và trí thông minh của những robot này cũng là trí thông minh độc quyền trong một lĩnh vực nhất định. Hạn chế của việc này là kết quả nghiên cứu và phát triển không thể được tái sử dụng, đồng thời các mô hình, phần cứng mà robot sử dụng chỉ phù hợp với một lĩnh vực rất nhỏ.
Gần đây, một nguyên mẫu của bộ não robot vạn năng đã ra đời. Một công ty chế tạo robot có tên Phys Intelligence đã đào tạo một mô hình cơ bản về robot vạn năng có tên π(0). Trí thông minh của nó về cơ bản có thể áp dụng cho bất kỳ ứng dụng robot nào. Điều này có nghĩa là khi loại mô hình tổng quát này trưởng thành, việc phát triển robot trong một lĩnh vực chuyên môn nhất định sẽ chỉ cần tinh chỉnh với dữ liệu của ngành, ít nhất là ở phần “bộ não”. Điều này giống như một doanh nhân phần mềm muốn bắt đầu kinh doanh trong một lĩnh vực nhất định và chỉ cần tinh chỉnh GPT-4.
Physical Intelligence đã nhận được 2 vòng tài trợ vào năm 2024. Vào tháng 3, Thrive Capital đã dẫn đầu vòng hạt giống trị giá 70 triệu USD, với Khosla Ventures, Lux Capital, OpenAI và Sequoia Capital tham gia đầu tư vào tháng 11, Jeff Bezos, OpenAI, Thrive Capital, Lux; Capital, Bond Capital, Khosla Ventures và Sequoia Capital đã tham gia vào vòng cấp vốn mới trị giá 400 triệu USD, định giá nó ở mức 2,4 tỷ USD.
Trước đây, Jeff Bezos đã lãnh đạo vòng tài trợ trị giá 675 triệu USD của Picture AI, vòng tài trợ Series A trị giá 300 triệu USD của Skild AI và Amazon cũng đã mua lại đội ngũ Covariant AI. OpenAI đã tham gia vào khoản đầu tư của Hình AI, cũng như khoản đầu tư 1X giai đoạn đầu trị giá 23,5 triệu USD. Trong lĩnh vực robot, các tổ chức đầu tư và gã khổng lồ công nghệ nhìn chung đều lạc quan.
Một nhóm các nhà khoa học cùng nhau xây dựng bộ não robot đa năng
Đội ngũ cốt lõi của Trí tuệ Vật lý đến từ các trường đại học như Đại học California, Berkeley và Đại học Stanford, cũng như các công ty công nghệ hàng đầu như Tesla, Google DeepMind và Stripe.
Karol Hausman
Người đồng sáng lập và Giám đốc điều hành của nó, Karol Hausman, là giáo sư phụ trợ tại Đại học Stanford và là cựu nhà khoa học nghiên cứu Google Brain trong lĩnh vực robot. Các bài báo của ông đã được trích dẫn hơn 13.000 lần. Người đồng sáng lập Sergey Levine là phó giáo sư tại Đại học California, Berkeley và là chuyên gia hàng đầu về robot. Các bài báo của ông đã được 150.000 người trích dẫn . Người đồng sáng lập Chelsea Finn là phó giáo sư tại Đại học Stanford và có 63.000 trích dẫn trong các bài báo của mình.
Serge Levine
Trong đội ngũ sáng lập còn có cựu nhà khoa học nghiên cứu Google Brian Ichter và cựu giám đốc điều hành Stripe và nhà đầu tư công nghệ có tiếng Lachy Groom.
Viễn cảnh mong đợi của Trí tuệ Vật lý là người dùng có thể yêu cầu robot thực hiện bất kỳ nhiệm vụ họ muốn, giống như sử dụng trợ lý trò chuyện được hỗ trợ bởi một mô hình lớn.
Mô hình cơ bản của robot vạn năng có ý nghĩa gì đối với ngành?
Hiện tại, các hướng ứng dụng của AI có thể tạm chia thành hai loại, một là tương tác với con người trong không gian ảo, hai là tương tác trực tiếp với thế giới vật chất. Tương tác với con người trong không gian ảo, chẳng hạn như robot trò chuyện, đại lý và tìm kiếm doanh nghiệp AI, AI hợp pháp, AI lập trình và AI ngành dọc khác.
Tương tác trực tiếp với thế giới vật chất, chủ yếu thông qua robot và xe tự lái. Về mặt phân loại ứng dụng robot, nó cũng có thể được chia thành hai loại: chuyên dụng và chung.
Ngày nay, hầu hết robot đều là robot “được tạo ra có mục đích”, có thể thích ứng với những thay đổi nhỏ trong một hoàn cảnh hạn chế nhưng lại gặp khó khăn trong việc đối phó với các môi trường trong thế giới thực như nhà ở hoặc hoàn cảnh phức tạp và lộn xộn hơn khác. Ngoài ra còn có một số robot có mục đích chung, chẳng hạn như một số robot hình người. Chúng được thiết kế để xử lý hầu hết những việc mà con người có thể làm, thay vì bị giới hạn trong một tình huống hạn chế.
Cấu trúc của robot có thể được chia đại khái thành "bộ não", "tiểu não", "mắt" và "tay chân". "Trong đó" là trung tâm của robot, chịu trách nhiệm hiểu các hướng dẫn bên ngoài và đưa ra quyết định. mô hình chung hoặc đặc biệt; "tiểu não" đưa các lệnh ra quyết định vào các "tay chân" và điều khiển chúng, đó là hệ thống điều khiển "các bộ phận của robot tiếp xúc trực tiếp với thế giới vật chất", và có thể là cánh tay robot hình người, hình chó hoặc thậm chí là ô tô;
Ở tất cả các bộ phận này, các công ty lớn hay các công ty khởi nghiệp hàng đầu đều đang đổi mới và nghiên cứu chúng. Tuy nhiên, “tiểu não”, “mắt” và “tay chân” đã dần trưởng thành trong các làn sóng robot lần, trong khi “bộ não” của robot thì lại hoàn thiện hơn. vẫn đang trong quá trình phát triển sơ cấp.
Đối với robot làm sạch, robot phun thuốc, robot phân phối cũng như robot lưu kho và xử lý trong các cảnh dọc, chúng chỉ có trí thông minh độc quyền tương ứng với các cảnh dọc và các mô hình "bộ não" của chúng chỉ có thể hiểu và xử lý các tình huống trong các cảnh giới hạn trước đó. chúng chỉ có thể thực hiện các chuyển động cố định và đòi hỏi lượng lớn sự lập trình của con người.
Một mô hình não robot phổ quát có thể thay đổi tình trạng này ở một mức độ nhất định. Nó cho phép robot học hỏi và làm theo hướng dẫn của người dùng, giúp việc lập trình các hành vi mới trở nên rất đơn giản và cũng cho phép robot điều chỉnh hành vi của chúng để thích ứng với hoàn cảnh.
Đối với các doanh nhân robot trong bất kỳ lĩnh vực dọc nào, miễn là họ có mô hình bộ não robot phổ quát, kết hợp với dữ liệu độc quyền của ngành của họ, họ có thể tinh chỉnh bộ não robot thích ứng với các tình huống ứng dụng cụ thể. Logic này hoàn toàn giống với mô hình ngôn ngữ lớn + dữ liệu độc quyền = mô hình ngành mạnh mẽ.
Ở mức độ sâu hơn, mô hình cơ bản chung về robot cũng rất hữu ích trong việc hiện thực hóa trí tuệ nhân tạo nói chung (AGI). Giờ đây, các nhà nghiên cứu AI đã phát hiện ra rằng tác dụng của Luật mở rộng đang yếu dần do mô hình AI đã gặp phải "bức tường dữ liệu" - gần như tất cả dữ liệu chất lượng cao hiện có đều đã được đào tạo và mô hình ngày càng thiếu dữ liệu tốt hơn. Nếu có một mô hình robot vạn năng liên tục tương tác với thế giới vật chất, liên tục gặp và giải quyết các tình huống phức tạp, thì dữ liệu chất lượng cao sẽ tiếp tục được tạo ra và cuối cùng nó sẽ ngày càng tiến gần hơn đến AGI.
Cần phương pháp mới nào để huấn luyện các mô hình robot cơ bản?
Mô hình cơ bản về robot phổ thông nguyên mẫu hiện tại của Physical Intelligence được gọi là π0 (pi-zero). Nó được đào tạo trên nhiều loại dữ liệu và có khả năng thực hiện nhiều hướng dẫn văn bản khác nhau. Nhưng không giống như mô hình ngôn ngữ lớn, nó cũng tích hợp hình ảnh, văn bản và hành động, đồng thời thu được trí thông minh vật lý thông qua các hoạt động thực tế được tích lũy trong trải nghiệm robot. Nó đưa ra các hướng dẫn động cơ cấp thấp. Nó có thể điều khiển nhiều loại robot khác nhau và có thể được nhắc thực hiện nhiệm vụ cần thiết hoặc tinh chỉnh để phù hợp với các tình huống ứng dụng phức tạp.
Khi huấn luyện mô hình π0, Trí tuệ Vật lý sử dụng một số chiến lược huấn luyện đặc biệt.
Đầu tiên là đào tạo kết hợp nhiều thiết bị . Mô hình π0 sử dụng đào tạo trước bằng ngôn ngữ hình ảnh trên quy mô Internet, bộ dữ liệu vận hành rô-bốt mã nguồn mở và bộ dữ liệu nhiệm vụ chính xác tự thu thập từ 8 rô-bốt khác nhau, cho phép nó học thông qua không. nhắc nhở bắn hoặc tinh chỉnh. Thực hiện nhiều nhiệm vụ khác nhau.
Các bộ dữ liệu này chứa nhiệm vụ đa dạng, mỗi nhiệm vụ thể hiện các đơn vị chuyển động cơ bản phong phú, các đối tượng khác nhau và nhiều kịch bản; nhiệm vụ này cũng bao gồm các khía cạnh khác nhau của hoạt động khéo léo của robot. Mục tiêu của việc Trí tuệ Vật lý lựa chọn nhiệm vụ này không phải là giải quyết một vấn đề nhất định. vấn đề chứ không phải là một ứng dụng cụ thể, nó cung cấp cho mô hình sự hiểu biết chung về các tương tác vật lý—đặt nền tảng ban đầu cho trí tuệ vật lý.
Thứ hai là hiểu biết ngữ nghĩa trên quy mô Internet . Điểm khởi đầu của khóa đào tạo này là mô hình ngôn ngữ hình ảnh (VLM). VLM có thể truyền tải kiến thức ngữ nghĩa từ mạng một cách hiệu quả, nhưng chúng chỉ có thể xuất ra các mã thông báo ngôn ngữ riêng biệt và các hoạt động phức tạp của robot yêu cầu π0 để xuất ra các lệnh động cơ ở tần số cao (lên tới 50 lần mỗi giây).
Để đạt được tính linh hoạt này, Trí tuệ Vật lý sử dụng tính năng khớp luồng (một biến thể của mô hình khuếch tán) để nâng cao mô hình VLM để nó có thể đưa ra các hướng dẫn hành động liên tục, điều này dẫn đến mô hình khớp luồng hành động-ngôn ngữ hình ảnh, sau đó là Mô hình này. được đào tạo sau về dữ liệu robot chất lượng cao để giải quyết sê-ri nhiệm vụ tiếp theo.
Cuối cùng, có đào tạo sau cho các hoạt động chính xác . Nhiệm vụ chính xác phức tạp hơn đòi hỏi phải tinh chỉnh mô hình thông qua dữ liệu chất lượng cao, chẳng hạn như nhiệm vụ gấp quần áo, tương tự như quá trình sau đào tạo. của một mô hình ngôn ngữ lớn. Việc đào tạo trước cung cấp cho mô hình kiến thức về thế giới vật chất, trong khi việc tinh chỉnh giúp mô hình thực hiện tốt một nhiệm vụ cụ thể.
Tất nhiên, π0 không phải là mô hình cơ bản về robot đa năng duy nhất kết hợp nó với một số mô hình cơ bản về robot đa năng khác trong điều kiện không bắn để thực hiện một số nhiệm vụ thực tế, chẳng hạn như gấp quần áo và lấy bánh mì nướng từ máy làm bánh mì. . Hãy ra ngoài, đóng gói đồ lặt vặt, v.v. để kiểm tra khả năng giải quyết các vấn đề thực tế của mô hình. Kết quả cho thấy cả π0 và π0-small nhỏ hơn đều tốt hơn đáng kể so với OpenVLA hiện có và các mô hình khác về khả năng giải quyết vấn đề.
Ví dụ, trong nhiệm vụ như gấp đồ giặt, lau bàn, lắp ráp hộp, robot được hỗ trợ π0 có thể tách đồ giặt rối và gấp lại; chúng có thể đặt dao kéo hoặc cốc vào khay lau nhà và bỏ rác vào thùng rác; hộp các tông, gấp thành hình và chèn các đường viền. Những hành động này không phải là nhiệm vụ đơn giản, ít bước mà là những hoạt động sản xuất, gia đình đòi hỏi những hành động phức tạp.
Tuy nhiên, tính đến đến nay, π0 chỉ là mô hình nguyên mẫu và mô hình cơ bản chung của robot vẫn còn ở giai đoạn sơ khai. Trí tuệ Vật lý cho biết họ cũng sẽ tiếp tục thu thập dữ liệu và đào tạo các mô hình, tạo ra các khả năng vật lý và tính linh hoạt mới.
Về mặt thương mại hóa, Trí tuệ Vật lý hiện chưa có hành động rõ ràng.
Ngành công nghiệp robot của Trung Quốc cần các công nghệ cốt lõi và cần được triển khai
Tại sao các tổ chức đầu tư hàng đầu và người đứng đầu những gã khổng lồ công nghệ như Jeff Bezos lại đặt cược vào robot? Câu trả lời có lẽ như đã đề cập ở trên. Robot có thể được kết hợp với AI để khám phá thế giới vật chất, tạo ra lượng lớn dữ liệu thực và chất lượng cao, và cuối cùng là giúp hiện thực hóa AGI.
Trên thực tế, mọi người không chỉ đầu tư mà còn tự làm ra. Ngoài Optimus của Tesla, NVIDIA còn có sê-ri công cụ mô hình robot phổ thông NVIDIA Project GR00T, và Amazon có Sparrow (hệ thống robot kho bãi) và Digit (robot hai chân).
Về mặt khởi nghiệp, Hình AI chủ yếu tạo ra các robot hình người Hình 01 và Hình 02. Bộ não của chúng bao gồm các mô hình tùy chỉnh OpenAI, có tính linh hoạt cao. Chúng không chỉ có thể hoàn thiện các kỹ năng sống như pha cà phê mà còn có thể đi đến các nhà máy. cái vít”.
Skild AI chủ yếu sản xuất Skild Brain và nền tảng điều hành di động, trong đó Skild Brain là bộ não phổ quát dành cho các robot tương tự như π0.
1X cũng sản xuất Neo Beta, robot hình người hai chân được thiết kế cho gia đình, trong khi Vayu One là robot giao hàng của Vayu Robotics và nó cũng có Vayu Drive, một mô hình di động cơ bản.
Hiện tại, Trung Quốc vẫn có khoảng cách nhất định với Mỹ về thuật toán cốt lõi và hệ thống điều khiển chuyển động tiên tiến về robot, nhưng liệu đó là “bộ não”, “tiểu não”, “mắt” và “tay chân” của robot; nhiều loại robot độc quyền khác nhau và Về các robot đa năng hình người/hình con chó, các công ty lớn và các công ty khởi nghiệp hàng đầu đang nỗ lực đổi mới và phát triển. Các công ty này bao gồm Alibaba, Xiaomi, Xpeng, DJI, Yushu, v.v.
Hơn nữa, một mặt, Trung Quốc có thị trường khổng lồ và kịch bản ứng dụng phong phú, nhưng mặt khác, mật độ robot không đủ cao, đồng nghĩa với việc nhu cầu thị trường tiềm năng rất lớn. Đối với các doanh nhân robot, dù tập trung vào thị trường nội địa thì vẫn còn đủ dư địa để phát triển. Sau khi “chiến thắng” ở thị trường trong nước, họ có thể mở rộng hơn nữa ra thị trường quốc tế.
Trong định hướng khởi nghiệp, cần tạo ra những đột phá về các hướng cơ bản, cốt lõi như “bộ não” và “tiểu não”, đồng thời cũng cần xuất hiện lượng lớn người đổi mới trong các kịch bản ứng dụng khác nhau. Chỉ bằng cách thúc đẩy lẫn nhau các ứng dụng và công nghệ cơ bản, toàn bộ hệ sinh thái khởi nghiệp và đổi mới robot mới có thể phát triển lành mạnh. Là một tổ chức đầu tư thiên thần, Alpha Commune hy vọng tìm ra những doanh nhân xuất sắc trong lĩnh vực robot thông minh và hy vọng có thể giúp công ty chế tạo robot đẳng cấp thế giới tiếp theo phát triển và lớn mạnh.
Bài viết này xuất phát từ tài khoản công khai WeChat "Alpha Commune" (ID: alphastartups) , tác giả: Khám phá những doanh nhân phi thường, 36 Krypton được xuất bản với sự cho phép.