OpenAI đặt cược lớn, mô hình thế giới robot Neo ra mắt, liệu robot có mở ra thời khắc ChatGPT?

avatar
36kr
09-18
Bài viết này được dịch máy
Xem bản gốc

[Giới thiệu] Vừa rồi, 1X, một công ty khởi nghiệp về robot hình người mà OpenAI đã đầu tư rất nhiều, cuối cùng đã tiết lộ "mô hình thế giới" đằng sau nó - nó có thể tạo ra các dự đoán hành vi cho các tình huống khác nhau dựa trên dữ liệu thực ! Thời điểm ChatGPT trong lĩnh vực robot có thể thực sự sắp đến.

Vào đầu tháng, OpenAI đã đầu tư rất nhiều vào công ty khởi nghiệp robot hình người 1X và cuối cùng đã phát hành video thông báo chính thức Neo.

Lần đầu tiên nó xuất hiện đã gây sốc cho tất cả mọi người.

Nó không chỉ được mệnh danh là “người đàn ông mặc vest” về ngoại hình mà còn về khả năng, nó có thể giúp nữ chính xách túi và nấu ăn cùng nhau, khiến nó trở thành một robot gia đình đa năng hoàn hảo.

Nó được thiết kế để con người thực hiện nhiều nhiệm vụ gia đình khác nhau mà chúng ta không muốn làm, chẳng hạn như dọn dẹp, sắp xếp, v.v.

Sau nửa tháng, 1X cuối cùng đã phát hành “mô hình thế giới” đằng sau Neo.

Với trình mô phỏng thế giới ảo này, Neo có thể dự đoán các tương tác đối tượng hữu ích.

Nói tóm lại, họ có thể tạo cảnh quay video trong nhiều hoàn cảnh khác nhau.

Ví dụ, những đồ vật có thể thay đổi như gấp áo phông, mở rèm có thể tìm thấy ở khắp mọi nơi trong nhà, nhưng rất khó để đưa chúng vào mô phỏng thế giới ảo.

Điều thú vị là Eric Jang, phó chủ tịch của 1X AI, cho biết họ đã đặt một chiếc gương dài trong văn phòng để “người mẫu” có thể nhận ra chính mình trong gương.

Neo hiện có khả năng tự phản ánh, nhưng khả năng tự nhận thức của nó vẫn chưa thức tỉnh.

Bằng cách hiểu thế giới và tương tác với nó, "Mô hình thế giới" 1X có thể tạo ra các video có độ trung thực cao và lập kế hoạch lại, mô phỏng và đánh giá trong mạng lưới thần kinh.

Đây cũng chính là tầm quan trọng của các mô hình thế giới đối với robot.

Người sáng lập và Giám đốc điều hành 1X Bernt Bornich cho biết bằng chứng đầu tiên về dữ liệu robot hình người đang thúc đẩy đáng kể Luật mở rộng.

Ted Xiao, nhà nghiên cứu cấp cao tại Google DeepMind Robotics, cho biết mô hình thế giới “học tập” của 1X có thể liên tục cải thiện với dữ liệu tương tác vật lý tuyệt đẹp.

- Các mô hình thế giới có thể là cách duy nhất để đánh giá có thể lặp lại và mở rộng trong hoàn cảnh nhiều tác nhân. (Tham gia đánh giá thành công mô hình thế giới về xe tự lái)

- Dựa trên công nghệ AI của năm 2024, việc xây dựng mô hình thế giới sẽ dễ dàng hơn so với dựa trên công nghệ của năm ngoái.

- Khi các mô hình trên thế giới đủ tốt để đánh giá thì có khả năng họ đã hoàn thành ít nhất 90% công việc đào tạo.

Robot "người mẫu thế giới" đã có mặt!

Nói một cách thẳng thắn, mô hình thế giới là một chương trình máy tính.

Nó có thể tưởng tượng thế giới phát triển như thế nào khi tác nhân hành xử.

Dựa trên nghiên cứu mô hình thế giới xe tự lái và tạo video, 1X đã đào tạo mô hình thế giới của riêng mình thành một trình mô phỏng ảo cho Neo.

Bắt đầu từ cùng một chuỗi hình ảnh bắt đầu, mô hình thế giới 1X có thể dự đoán nhiều tình huống có thể xảy ra trong tương lai dựa trên hành động của các robot khác nhau.

Bên trái: Đi vào cửa bên trái; Giữa: Chơi guitar hơi; Bên phải: Đi vào cửa bên phải;

Sau đó, điều quan trọng nhất đối với sự tồn tại của robot hiện thân là khả năng tương tác với thế giới vật chất.

Trong thế giới phức tạp này, làm thế nào để tương tác hiệu quả đã trở thành một bài toán khó.

Mô hình thế giới có thể giúp Neo hoàn thành các tương tác chính xác, chẳng hạn như vật thể cứng, hiệu ứng rơi của vật thể, vật thể không nhìn thấy được (cốc), vật thể có thể biến dạng (rèm, quần áo) và vật thể có bản lề (cửa, ngăn kéo, ghế).

Nó có thể đặt đĩa ăn vào giá thoát nước.

Nó cũng có thể mở rèm cửa.

Lấy đồ ra khỏi ngăn kéo và vân vân.

Vấn đề nan giải của robot hiện thân— Đánh giá

Ngoài ra, các mô hình trên thế giới giải quyết một thách thức rất thực tế nhưng thường bị bỏ qua trong việc chế tạo các robot phổ quát: đánh giá.

Giả sử một robot được huấn luyện để thực hiện 1.000 nhiệm vụ duy nhất, thật khó để biết liệu mô hình mới có thực sự cải tiến so với mô hình trước đó về tất cả nhiệm vụ.

Điều đáng lo ngại hơn nữa là ngay cả khi tỷ trọng của mô hình là như nhau, hiệu suất có thể giảm chỉ sau vài ngày do những thay đổi nhỏ về bối cảnh hoàn cảnh hoặc ánh sáng hoàn cảnh .

Các nhà nghiên cứu đã huấn luyện một mô hình robot để gấp áo phông và hiệu suất của nó giảm dần sau 50 ngày.

Hơn nữa, nếu hoàn cảnh tiếp tục thay đổi, khả năng tái lập thí nghiệm sẽ trở thành một vấn đề.

Đặc biệt, vấn đề này trở nên khó khăn hơn khi đánh giá các hệ thống nhiệm vụ trong hoàn cảnh như gia đình và văn phòng.

Dựa trên những yếu tố này, việc bắt đầu nghiên cứu robot một cách nghiêm ngặt trong thế giới thực là vô cùng khó khăn.

Khi mở rộng quy mô dữ liệu, tỷ lệ băm và kích thước mô hình, câu hỏi về khả năng của hệ thống AI sẽ mở rộng như thế nào có thể được dự đoán thông qua các phép đo chính xác.

Luật mở rộng đã trở thành một công cụ hỗ trợ mạnh mẽ cho việc cải thiện hiệu suất của các hệ thống AI có mục đích chung như ChatGPT.

Do đó, nếu lĩnh vực robot muốn mở ra "khoảnh khắc ChatGPT" của riêng mình, thì trước tiên nó phải thiết lập "Luật mở rộng quy mô" của mình.

Học từ dữ liệu thô để dự đoán các kịch bản trong tương lai

Các động cơ dựa trên mô phỏng vật lý như Bullet, Mujoco, Isaac Sim và Drake đã trở thành một phương pháp hợp lý để nhanh chóng thử nghiệm các chiến lược của robot.

Hơn nữa, những bộ mô phỏng này có thể được thiết lập lại và tái sử dụng, cho phép các nhà nghiên cứu so sánh cẩn thận các thuật toán điều khiển khác nhau.

Tuy nhiên, những mô phỏng này được thiết kế chủ yếu cho "động lực cơ thể cứng nhắc" và yêu cầu thu thập dữ liệu thủ công lượng lớn .

Vậy, làm thế nào để bạn cho phép một robot mô phỏng mở hộp phin lọc cà phê, dùng USD cắt trái cây, tháo lọ mứt hoặc tương tác với con người hoặc các tác nhân AI khác?

Trong hoàn cảnh gia đình, các đồ vật và vật nuôi thông thường hàng ngày rất khó mô phỏng và robot huấn luyện cực kỳ thiếu các trường hợp sử dụng trong thế giới thực.

Do đó, đánh giá thực tế/mô phỏng quy mô nhỏ về robot trong một số nhiệm vụ hạn chế không dự đoán chính xác cách chúng sẽ hoạt động trong thế giới thực.

Nói cách khác, robot được đào tạo theo cách này khó có khả năng “khái quát hóa toàn cầu” trong thế giới thực.

Đội ngũ nghiên cứu 1X đã áp dụng một phương pháp hoàn toàn mới để đánh giá robot thông qua:

Tìm hiểu các mô phỏng trực tiếp từ dữ liệu cảm biến gốc và sử dụng dữ liệu đó đánh giá các chiến lược rô-bốt trong hàng triệu tình huống.

Ưu điểm của phương pháp"mô hình thế giới" này là có thể lấy được tất cả dữ liệu phức tạp của thế giới thực chỉ bằng một cú nhấp chuột mà không cần phải tạo tài sản theo cách thủ công.

Trong năm qua, đội ngũ 1X đã thu thập hơn 5.000 giờ dữ liệu về robot hình người EVE.

Dữ liệu bao gồm các tình huống trong đó robot thực hiện nhiệm vụ vận hành di động khác nhau và tương tác với mọi người trong hoàn cảnh gia đình và văn phòng.

Sau đó, họ kết hợp dữ liệu video và chuyển động để đào tạo một mô hình thế giới.

Mô hình này rất mạnh mẽ. Nó không chỉ có thể thực hiện các hành động dựa trên tình huống được quan sát mà còn tạo ra video và dự đoán các cảnh trong tương lai.

Các chuyển động có thể được điều khiển và bạn có thể chơi guitar không khí với tính năng "tăng cường trí não"

Mô hình thế giới 1X có thể tạo ra các kết quả đầu ra đa dạng dựa trên các hướng dẫn hành động khác nhau.

Như minh họa trong hình bên dưới, các kết quả khác nhau được tạo ra dựa trên bốn chuỗi hành động khác nhau sẽ được hiển thị. Các chuỗi hành động này đều bắt đầu từ cùng một khung hình ban đầu.

Như trước đây, những ví dụ này không được đưa vào dữ liệu huấn luyện.

Giá trị chính của mô hình thế giới là khả năng mô phỏng sự tương tác giữa các đối tượng.

Trong thế hệ mô phỏng tiếp theo, các nhà nghiên cứu đã cung cấp cho mô hình cùng một kịch bản ban đầu và thiết lập ba nhóm hành động khác nhau để lấy chiếc hộp.

Trong mỗi cảnh mô phỏng, hộp lấy sẽ được nâng lên và di chuyển theo chuyển động của người thao tác, trong khi các hộp không lấy được sẽ bất động và giữ nguyên vị trí.

Ngay cả khi không có hướng dẫn hành động cụ thể, mô hình thế giới vẫn có thể tạo ra những video trông hợp lý.

Ví dụ, nó có thể tránh người đi bộ và chướng ngại vật khi di chuyển về phía trước. Hành vi này là điều rất bình thường.

Mô phỏng gấp áo phông, ngay cả đối với nhiệm vụ dài hạn

Ngoài ra, 1X còn có thể tạo ra những video dài.

Như trong ví dụ ở đầu, Neo đã mô phỏng một màn trình diễn gấp áo phông hoàn chỉnh.

Điều đáng nói là những vật thể có thể biến dạng như áo phông thường khó thực hiện trong "mô phỏng cơ thể cứng nhắc".

Các vấn đề hiện tại

Tuy nhiên, mô hình thế giới 1X cũng có một số vấn đề.

tính nhất quán của đối tượng

Ví dụ: mô hình có thể không duy trì được tính nhất quán về hình dạng và màu sắc của đối tượng trong quá trình tương tác với đối tượng.

Đặc biệt khi đối tượng bị che khuất hoặc hiển thị ở một góc không đồng nhất, hình dáng của đối tượng có thể bị biến dạng trong quá trình tạo video của mô hình thế giới.

Đôi khi đồ vật thậm chí còn biến mất hoàn toàn.

Ví dụ, khi thực hiện hành động nhặt một quả bóng màu đỏ và đặt nó lên đĩa, quả bóng sẽ biến mất trong quá trình đó một cách khó hiểu.

định luật vật lý

Hơn nữa, nó không hiểu các quy luật cơ bản của thế giới vật chất.

Đôi khi, Neo có thể có sự hiểu biết tự nhiên về các đặc tính vật lý, chẳng hạn như một chiếc thìa rơi xuống bàn sau khi thả tay robot ra.

Nhưng trong nhiều trường hợp, kết quả tạo ra không tuân theo các định luật vật lý, ví dụ như trong ví dụ sau, chiếc đĩa treo thẳng trong không khí.

Điều này cho thấy mô hình thế giới không hiểu rằng mọi vật thể đều chịu tác dụng của lực hấp dẫn thẳng đứng hướng xuống.

tự nhận thức

Ngoài ra, các nhà nghiên cứu đã yêu cầu robot AI EVE đi trước gương và quan sát xem nó có tạo ra các hành vi tương ứng với những hành vi trong gương hay không.

Không ngờ khi nó giơ cánh tay còn lại lên thì gương lại không có sự đồng bộ.

Có thể thấy mô hình 1X hiện tại chưa có tính tự nhận thức.

Tham khảo:

https://x.com/ericjang11/status/1836096888178987455

https://x.com/1x_tech/status/1836094175630200978

Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" , được biên tập bởi: Taozi Haoshan, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận