Vượt xa GPT-4o, Physical Intelligence ra mắt Hi Robot, học được suy nghĩ của con người bằng cách "nói chuyện với chính nó"

avatar
36kr
02-28
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của văn bản:

Khi robot đối mặt với các nhiệm vụ phức tạp trong môi trường thực tế, làm thế nào để không chỉ thực hiện các lệnh đơn giản, mà còn có thể tự lập luận để hoàn thành các bước cần thiết để đạt mục tiêu, và hoàn thành nhiệm vụ tốt như con người?

Đối với vấn đề này, công ty khởi nghiệp về trí tuệ nhân tạo thể chất của Mỹ, Physical Intelligence, đưa ra câu trả lời là—— để robot học cách suy nghĩ theo Hệ thống 2.

Nhà tâm lý học nổi tiếng của Mỹ, Daniel Kahneman, đã mô tả hai chế độ suy nghĩ để giải quyết vấn đề của con người là "Hệ thống 1" (System 1) và "Hệ thống 2" (System 2). Hệ thống 1 là trực giác, bản năng và tự động; Hệ thống 2 là suy nghĩ cẩn trọng và có ý thức.

Ví dụ, khi con người làm một món ăn mới, họ sẽ tham khảo công thức, chuẩn bị nguyên liệu, và cẩn thận suy nghĩ từng bước trong quá trình nấu nướng. Đây là chế độ suy nghĩ của Hệ thống 2. Tuy nhiên, khi một người làm lại cùng một việc lần thứ 100, họ đã thành thạo đến mức không cần suy nghĩ, chỉ cần thực hiện cơ học, đây là chế độ suy nghĩ của Hệ thống 1.

Hôm qua, Physical Intelligence đã ra mắt hệ thống "Robot tương tác phân cấp" (Hi Robot), có thể đưa mô hình thị giác-ngôn ngữ-hành động (VLA) như π0 vào một quá trình suy luận phân cấp. π0 như một phản ứng bản năng của "Hệ thống 1" có thể thực hiện các nhiệm vụ thành thạo, trong khi một mô hình thị giác-ngôn ngữ (VLM) cấp cao hơn đóng vai trò "Hệ thống 2", thông qua "tự nói với chính mình" để suy luận các nhiệm vụ phức tạp và tương tác ngôn ngữ. Chiến lược cấp cao này của Hệ thống 2 giúp robot có thể phân chia các nhiệm vụ phức tạp thành các bước trung gian.

Hãy xem video chính thức đầu tiên:

Theo giới thiệu, chiến lược cấp cao này chính là một VLM, sử dụng cùng một cốt lõi mạng VLM với π0, sau khi được huấn luyện có thể xử lý các lời nhắc phức tạp, quan sát các tình huống và phân chia nhiệm vụ thành các bước nhỏ dễ thực hiện, giao các bước này (như "cầm lấy một lát bánh mì đen") cho mô hình VLA của π0 để thực hiện, đồng thời kết hợp với phản hồi ngữ cảnh thời gian thực.

Ví dụ, nếu nó đang dọn dẹp bàn, người dùng nói "Đó không phải là rác", mô hình sẽ hiểu ý nghĩa của điều này, liên kết vật thể ("đó") với vật thể mà robot đang thao tác trong hình ảnh, và hiểu đúng ngụ ý (tức là "đó" không nên được bỏ vào thùng rác, mà nên được đặt ở nơi khác), sau đó lại giao các bước trung gian chính xác cho mô hình π0 để thực hiện.

Hình | Chiến lược cấp cao xử lý các lệnh mở và hình ảnh từ camera gắn trên cơ sở và cổ tay, tạo ra các lệnh ngôn ngữ cấp thấp. Chiến lược cấp thấp sử dụng các lệnh này, hình ảnh và trạng thái của robot để tạo ra các hành động và phản hồi ngôn ngữ tùy chọn.

Bài báo nghiên cứu liên quan với tiêu đề "Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models" đã được đăng trên trang web preprint arXiv.

Liên kết bài báo: https://www.arxiv.org/abs/2502.19417

Suy luận phân cấp có những ưu điểm gì?

Nếu chiến lược Hi Robot cấp cao và mô hình π0 cấp thấp đều dựa trên cùng một VLM, thì tại sao quá trình suy luận phân cấp này lại thực sự có ưu điểm?

Giống như các mô hình ngôn ngữ khi giải quyết các vấn đề phức tạp, nếu được phép tạo ra thêm văn bản để "suy nghĩ", Hi Robot nếu có thể phân chia các lời nhắc và phản hồi phức tạp thành các bước đơn giản, sau đó giao cho mô hình π0 thực hiện, nó sẽ có thể xử lý tốt hơn các lời nhắc và phản hồi phức tạp này. Còn một lý do kỹ thuật sâu hơn: Nhóm Physical Intelligence đã sử dụng mạng lưới quy mô lớn được tiền huấn luyện để khởi tạo VLM, có thể huấn luyện mô hình tạo ra câu trả lời văn bản để trả lời các lời nhắc và câu hỏi liên quan đến ngữ cảnh hình ảnh và văn bản. Điều này có nghĩa là, những mô hình này trong trạng thái sẵn sàng sử dụng, đã rất giỏi trong việc trả lời các câu hỏi như "Trong hình này, robot nên cầm lấy vật thể nào để dọn dẹp bàn?".

Do đó, Hi Robot có thể kế thừa tốt hơn kiến thức tích lũy từ việc tiền huấn luyện mạng lưới quy mô lớn của VLM. Điều này rất giống với cách bạn suy nghĩ khi làm món ăn mới: bạn có thể đang suy nghĩ dựa trên những gì bạn học được từ công thức, bạn bè nói với bạn, hoặc từ các chương trình nấu ăn - tất cả những kiến thức này bạn thu được từ các nguồn khác, chứ không phải từ kinh nghiệm trực tiếp.

Robot học cách "tự nói với chính mình"

Nhóm Physical Intelligence cho biết, bằng cách kiểm tra "suy nghĩ" bên trong của Hi Robot khi đối mặt với các lời nhắc phức tạp, họ có thể hiểu được hệ thống này hoàn thành các nhiệm vụ phức tạp như thế nào dựa trên lời nhắc của người dùng.

Trong trường hợp này, π0 được huấn luyện để đơn giản chỉ dọn dẹp bàn, vứt tất cả rác vào thùng rác, đặt tất cả đồ dùng ăn uống vào thùng rác. Nếu để π0 tự làm, nó sẽ trực tiếp thực hiện nhiệm vụ này - bạn có thể đã trải qua trải nghiệm "lái xe tự động", vô tình hoàn thành một nhiệm vụ thành thạo mà không nhận ra mình đang làm gì. Nhưng dưới sự kiểm soát của Hi Robot, π0 có thể được điều chỉnh theo lời nhắc phức tạp hơn, và theo lệnh của người dùng, Hi Robot sẽ suy luận ra những chỉ dẫn sửa đổi cần cung cấp cho π0. Vì những chỉ dẫn này được tạo ra bằng ngôn ngữ tự nhiên, nên có thể kiểm tra chúng và quan sát robot "tự nói với chính mình" khi thực hiện nhiệm vụ.

Giải mã phản hồi ngữ cảnh của người dùng cũng là một vấn đề tương tự, cũng như Hi Robot có thể phân tích các lời nhắc phức tạp, nó thậm chí còn có thể tiếp thu phản hồi theo thời gian thực trong quá trình thực hiện nhiệm vụ.

Sử dụng dữ liệu tổng hợp để huấn luyện chiến lược cấp cao

Huấn luyện robot để làm theo các lời nhắc phức tạp, mở rộng, không chỉ cần dữ liệu demo với các chỉ dẫn nguyên tử. Chỉ với những dữ liệu này rất khó có thể cung cấp đủ ví dụ về tương tác đa bước phong phú. Để bù đắp khoảng trống này, nhóm Physical Intelligence đề xuất một phương pháp tạo tập dữ liệu ghi nhãn tổng hợp—— ghép kết quả quan sát của robot và kỹ năng do con người gán nhãn với các lời nhắc giả định và lời bình của con người. Phương pháp này mô phỏng các tương tác thực tế, giúp mô hình học cách giải mã và phản hồi các chỉ dẫn phức tạp.

Nhóm Physical Intelligence đã đánh giá hiệu suất của Hi Robot trong các nhiệm vụ thực tế (như dọn dẹp bàn, làm bánh mì kẹp và mua sắm), và so sánh với các phương pháp trước đó. Kết quả cho thấy, Hi Robot vượt trội hơn GPT-4o và các chiến lược VLA phẳng. Như đánh giá định lượng dưới đây, Hi Robot có độ chính xác trong việc làm theo chỉ dẫn cao hơn 40% so với GPT-4o, cho thấy nó có khả năng tốt hơn trong việc căn chỉnh với lời nhắc của người dùng và quan sát thời gian thực. Ngoài ra, Hi Robot cũng vượt trội hơn các chiến lược VLA phẳng trong việc xử lý các chỉ dẫn nhiều bước, thích ứng với các hiệu chỉnh thời gian thực và tuân thủ các ràng buộc.

Suy luận như con người

Hệ thống robot thông minh và linh hoạt không chỉ cần thực hiện các nhiệm vụ khéo léo, mà còn cần hiểu môi trường và suy luận về các vấn đề phức tạp nhiều bước. Trên bề mặt, Hi Robot tập trung vào tương tác với người dùng thông qua lời nhắc và phản hồi, nhưng mục tiêu cuối cùng của hệ thống này là赋予robot "tiếng nói bên trong" tương tự như bạn nghe

LLM và VLM cung cấp cho chúng ta những công cụ mạnh mẽ để học hỏi những kiến thức này từ Internet, nhưng việc kết nối những kiến thức này một cách liền mạch với các hệ thống vật lý như robot lại đối mặt với những thách thức kỹ thuật rất lớn. Nhóm Physical Intelligence hy vọng rằng, Hi Robot có thể là một bước quan trọng tiến tới hướng này.

Tham khảo liên kết: https://www.pi.website/research/hirobot

Bài viết này đến từ trang công khai WeChat "Tiêu đề học thuật", tổng hợp: Trần Tiểu Vũ, được 36Kr ủy quyền đăng tải.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
1
Bình luận