Công ty Physical Intelligence giới thiệu kiến trúc MEM nhằm cung cấp cho robot bộ nhớ cần thiết để thực hiện các nhiệm vụ trong thế giới thực.

Bài viết này được dịch máy

Xem bản gốc

Công ty Physical Intelligence giới thiệu kiến trúc MEM nhằm cung cấp cho robot bộ nhớ cần thiết để thực hiện các nhiệm vụ trong thế giới thực.

Trong nhiều năm, giấc mơ về một robot gia dụng thực sự hữu ích đã ở rất gần. Robot hiện nay đã có thể thực hiện các mệnh lệnh như “rửa chảo”, “gấp quần áo” hoặc “làm bánh mì kẹp”. Trong môi trường phòng thí nghiệm, các hệ thống này thể hiện sự khéo léo và chính xác đáng kinh ngạc. Tuy nhiên, bất chấp những tiến bộ nhanh chóng trong các mô hình nền tảng robot, một điều cơ bản vẫn còn thiếu: bộ nhớ.

Một robot có thể thực hiện một nhiệm vụ duy nhất không giống với một robot có thể hoàn thành một công việc. Dọn dẹp toàn bộ nhà bếp, nấu một bữa ăn hoặc chuẩn bị nguyên liệu cho một công thức nấu ăn đòi hỏi nhiều hơn những kỹ năng riêng lẻ. Nó đòi hỏi sự liên tục — khả năng ghi nhớ những gì đã được thực hiện, những gì vẫn cần phải làm và vị trí của mọi thứ. Nếu thiếu mạch thông tin đó, ngay cả robot có năng lực nhất cũng trở nên kém hiệu quả một cách đáng ngạc nhiên.

Đây là thách thức mà các nhà nghiên cứu tại Physical Intelligence hiện đang cố gắng giải quyết bằng một kiến trúc mới có tên là Bộ nhớ thể hiện đa quy mô (Multi-Scale Embodied Memory - MEM) — một hệ thống được thiết kế để cung cấp cho robot cả bộ nhớ ngắn hạn và dài hạn, cho phép chúng thực hiện các nhiệm vụ diễn ra trong vài phút thay vì vài giây.

Kết quả nghiên cứu hé lộ một điều quan trọng: tương lai của robot có thể phụ thuộc ít hơn vào những cánh tay máy móc tốt hơn và nhiều hơn vào kiến trúc nhận thức tốt hơn.

Các mẫu robot hiện đại đã sở hữu một kho kỹ năng vận động đáng kể. Chúng có thể cầm nắm các vật thể dễ vỡ, thao tác công cụ và di chuyển trong môi trường lộn xộn. Nhưng nếu yêu cầu một robot dọn dẹp toàn bộ nhà bếp — lau quầy, cất thực phẩm, rửa bát và sắp xếp dụng cụ — thì những hạn chế của chúng sẽ nhanh chóng trở nên rõ ràng.

Vấn đề không nằm ở bản thân các kỹ năng. Vấn đề là cách phối hợp các kỹ năng đó. Các nhiệm vụ phức tạp đòi hỏi sự nhận thức liên tục. Một robot phải nhớ những tủ nào nó đã mở, nó đã đặt nắp nồi ở đâu, hoặc liệu nó đã rửa bát đĩa hay chưa. Nó cũng phải theo dõi các vật thể di chuyển ra khỏi tầm nhìn và duy trì bản đồ tinh thần về môi trường trong khi thực hiện các hành động mới.

Khả năng nhận thức của con người làm điều này một cách dễ dàng. Máy móc, cho đến gần đây, vẫn chưa làm được. Việc lưu trữ mọi quan sát mà robot nhìn thấy trong nhiều phút hoặc nhiều giờ là bất khả thi về mặt tính toán. Nhưng việc loại bỏ thông tin đó dẫn đến hành vi hỗn loạn — những sai lầm lặp đi lặp lại, các bước bị quên hoặc các hành động mâu thuẫn với các quyết định trước đó. Trong nghiên cứu về robot, thách thức này đôi khi được mô tả là "sự nhầm lẫn nhân quả", trong đó các hệ thống hiểu sai các sự kiện trong quá khứ và củng cố các hành vi sai trái.

Kết quả: những robot trông rất ấn tượng trong các buổi trình diễn Short nhưng lại gặp khó khăn khi hoàn thành các nhiệm vụ thực tế.

Một hệ thống ghi nhớ dành cho trí thông minh thể chất

Kiến trúc MEM giải quyết vấn đề này bằng cách giới thiệu cấu trúc bộ nhớ đa lớp. Thay vì lưu trữ mọi thứ như nhau, hệ thống phân tách bộ nhớ thành hai dạng bổ sung cho nhau:

Bộ nhớ hình ảnh ngắn hạn ghi lại những quan sát gần đây bằng cách sử dụng kiến trúc mã hóa video hiệu quả. Điều này cho phép robot hiểu chuyển động, theo dõi các đối tượng giữa các khung hình và ghi nhớ các sự kiện đã xảy ra vài giây trước đó — điều cực kỳ quan trọng đối với các hành động chính xác như lật bánh mì kẹp phô mai nướng hoặc cọ rửa bát đĩa.

Trong khi đó, bộ nhớ khái niệm dài hạn lưu trữ tiến trình thực hiện nhiệm vụ bằng ngôn ngữ tự nhiên. Thay vì ghi nhớ dữ liệu hình ảnh thô vô thời hạn, robot viết những "ghi chú" ngắn gọn bằng văn bản mô tả những gì đã xảy ra — những câu như "Tôi đã đặt cái nồi vào bồn rửa" hoặc "Tôi đã lấy sữa từ tủ lạnh".

Những bản tóm tắt này trở thành một phần trong quá trình suy luận của robot. Về cơ bản, máy móc tự xây dựng câu chuyện của riêng mình về nhiệm vụ. Sau đó, bộ máy suy luận của hệ thống sẽ quyết định đồng thời hai điều: hành động tiếp theo cần thực hiện là gì và thông tin nào đáng ghi nhớ. Sự kết hợp này cho phép mô hình theo dõi các nhiệm vụ kéo dài đến mười lăm phút — lâu hơn nhiều so với hầu hết các cuộc trình diễn robot trước đây.

Một trong những khả năng thú vị nhất mà MEM mang lại là khả năng thích ứng trong ngữ cảnh. Robot mắc lỗi. Điều đó là không thể tránh khỏi. Nhưng hầu hết các hệ thống robot lặp đi lặp lại những lỗi đó vô tận vì chúng không có bộ nhớ về thất bại.

Sự khác biệt trở nên rõ ràng trong các thí nghiệm đơn giản. Trong một thử nghiệm, một robot cố gắng nhặt một chiếc đũa dẹt. Nếu không có bộ nhớ, máy sẽ liên tục thử cùng một cách cầm không thành công. Khi bật bộ nhớ, robot ghi nhớ lần thử thất bại và thử một cách khác — cuối cùng đã thành công.

Một ví dụ khác liên quan đến việc mở tủ lạnh. Chỉ dựa vào dữ liệu hình ảnh, robot không thể xác định ngay lập tức hướng mở cửa. Một hệ thống không có bộ nhớ chỉ đơn giản là lặp lại hành động đó nhiều lần. Một robot có bộ nhớ sẽ thử một hướng, ghi nhớ lỗi và sau đó thử hướng ngược lại.

Những điều chỉnh nhỏ này thể hiện một điều vô cùng quan trọng: khả năng học hỏi ngay trong quá trình thực hiện nhiệm vụ. Thay vì hoàn toàn dựa vào dữ liệu huấn luyện, robot thích nghi ngay lập tức.

Các nhà nghiên cứu đã đánh giá hệ thống hỗ trợ bộ nhớ trên các nhiệm vụ ngày càng phức tạp. Đầu tiên là một thử thách tương đối đơn giản: làm một chiếc bánh mì kẹp phô mai nướng. Điều này đòi hỏi bộ nhớ ngắn hạn để quản lý thời gian trong khi thực hiện các bước vật lý tinh tế như lật bánh mì và bày bánh lên đĩa.

Tiếp theo là một nhiệm vụ về mặt hậu cần: thu thập các nguyên liệu cho một công thức nấu ăn. Robot phải nhớ những món đồ nào nó đã thu thập, chúng nằm ở đâu và liệu các ngăn kéo và tủ đã được đóng hay chưa. Cuối cùng là tình huống khó khăn nhất: dọn dẹp toàn bộ nhà bếp.

Điều này bao gồm việc cất đồ đạc, rửa chén bát, lau dọn mặt bàn và theo dõi xem những khu vực nào trong phòng đã được dọn dẹp xong.

Mô hình được tăng cường bộ nhớ hoạt động tốt hơn đáng kể so với các phiên bản không có bộ nhớ có cấu trúc, thể hiện độ tin cậy cao hơn và tỷ lệ hoàn thành nhiệm vụ cao hơn.

Sự khác biệt này minh họa một sự chuyển biến quan trọng trong lĩnh vực robot học. Thay vì tối ưu hóa các hành động riêng lẻ, các nhà nghiên cứu hiện đang xây dựng các hệ thống có khả năng thực hiện các quy trình làm việc liên tục.

Vì sao bộ nhớ là bước tiến đột phá tiếp theo trong lĩnh vực robot học

Ý nghĩa rộng hơn của MEM là ngành robot đang bước vào một giai đoạn mới. Trong nhiều thập kỷ, lĩnh vực này tập trung vào nhận thức và điều khiển: giúp máy móc nhìn thế giới và thao tác các vật thể. Gần đây hơn, các mô hình đa phương thức lớn đã cải thiện đáng kể khả năng của robot trong việc hiểu các chỉ dẫn và thực hiện các hành vi vận động phức tạp.

Nhưng khi những khả năng đó ngày càng hoàn thiện, điểm nghẽn lại dịch chuyển. Thử thách tiếp theo là tính liên tục về nhận thức — cho phép robot hoạt động trong thời gian dài mà không đánh mất mục tiêu của mình. Các hệ thống bộ nhớ như MEM cung cấp nền tảng cho tính liên tục đó. Thay vì phản ứng từng khoảnh khắc, robot có thể duy trì một câu chuyện nội tại về hành động, quyết định và môi trường của chúng. Chính câu chuyện này cho phép các hành vi phức tạp xuất hiện.

Nếu phương pháp này tiếp tục phát triển, những tác động của nó sẽ vượt xa việc chỉ dọn dẹp nhà bếp. Robot trong tương lai có thể cần phải tuân theo các chỉ dẫn diễn ra trong nhiều giờ hoặc thậm chí nhiều ngày. Hãy tưởng tượng bạn nói với trợ lý ảo tại nhà rằng:

“Tôi về nhà lúc 6 giờ chiều — làm ơn chuẩn bị sẵn bữa tối và dọn dẹp nhà cửa vào các ngày thứ Tư nhé.”

Việc thực hiện một yêu cầu như vậy sẽ đòi hỏi phải phân tích các chỉ thị dài, lập kế hoạch các nhiệm vụ phụ, ghi nhớ tiến độ và thích ứng khi mọi thứ không diễn ra như ý muốn.

Việc lưu giữ lịch sử video thô ghi lại mọi hành động trong thời gian dài như vậy là điều không thể. Thay vào đó, robot có thể sẽ dựa vào các hệ thống bộ nhớ phân cấp, nơi các trải nghiệm được nén lại thành các biểu diễn ngày càng trừu tượng.

MEM là một bước đi ban đầu hướng tới kiến trúc đó. Nó cho thấy rằng chìa khóa để tạo ra những robot có khả năng hơn có thể không phải là động cơ mạnh hơn hay cảm biến sắc bén hơn, mà là bộ nhớ tốt hơn — và khả năng suy luận về bộ nhớ đó. Nếu robot cuối cùng có thể nhớ được những gì chúng đang làm, chúng cũng có thể hoàn thành công việc.

Bài đăng " Trí tuệ vật lý giới thiệu kiến trúc MEM để cung cấp cho robot bộ nhớ cần thiết cho các nhiệm vụ trong thế giới thực" xuất hiện lần đầu trên Metaverse Post .

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan