Nhiều bước tiến nhỏ của robot, một bước nhảy vọt khổng lồ cho nhân loại.

01-16

Bài viết này được dịch máy

Xem bản gốc

Chào mừng 1.179 người mới gia nhập Not Boring sau khi đọc bài luận mới nhất của chúng tôi! Hãy tham gia cùng 256.826 người thông minh, ham học hỏi khác bằng cách đăng ký tại đây:

Đăng ký ngay

Chào các bạn 👋,

Chúc thứ Năm vui vẻ! Tôi rất vui mừng được mang đến cho các bạn bài luận hợp tác đầu tiên trên thế giới (hay "cossay"? cần thêm từ ngữ phù hợp hơn) cùng với người bạn Evan Beard , đồng sáng lập kiêm CEO của Standard Bots .

Evan là người hoàn hảo để bắt đầu việc này.

Tôi quen Evan khoảng 20 năm rồi, thật không thể tin được. Chúng tôi học cùng trường Duke, cùng làm việc tại một công ty khởi nghiệp thực sự trên khuôn viên trường (và nó vẫn còn tồn tại !), thậm chí còn cùng nhau thắng một cuộc thi giải quyết tình huống kinh doanh của Lehman Brothers (nhờ đó chúng tôi có cơ hội phỏng vấn tại ngân hàng đầu tư ngay trước khi nó phá sản).

Sau khi tốt nghiệp, Evan lập tức bước chân vào lĩnh vực công nghệ. Anh ấy là một trong những thành viên đầu tiên của YC, khi đó YC còn nhỏ. Anh ấy đã thành lập một công ty cùng với Ashton Kutcher. Tôi vốn đã quan tâm đến công nghệ và luôn thích trò chuyện với Evan, nên chúng tôi thường gặp nhau tại các buổi họp mặt rồi lại đường ai nấy đi. Vào tháng 9 năm 2023, một người quen chung đã gửi email cho tôi nói rằng “có một công ty mà bạn nên để ý đến, Standard Bots ”, và tôi đã tìm hiểu, và thật bất ngờ, đó là công ty do Evan Beard sáng lập!

Từ khi nối lại liên lạc, Evan đã trở thành một trong số ít người mà tôi thường hỏi những câu hỏi ngớ ngẩn về robot. Anh ấy đã từng điều trần trước Quốc hội về vấn đề robot. Năm ngoái, anh ấy đã phát biểu trên sân khấu chính tại hội nghị GTC của Nvidia. Thậm chí, anh ấy còn xuất hiện trong phim Babygirl của A24 với vai trò thu thập dữ liệu robot, đóng cùng Nicole Kidman! Evan rất am hiểu về robot.

Và những câu hỏi thật ngớ ngẩn! Lĩnh vực robot học khiến tôi e ngại. Khi giá trị định giá tăng vọt, tôi hầu như tránh viết bài hoặc đầu tư vào robot, vì tôi không cảm thấy đủ tự tin rằng mình hiểu rõ vấn đề để đưa ra quan điểm.

Đó chính là mục đích của những bài luận viết chung này!

Evan đã cống hiến sự nghiệp của mình cho một niềm tin cụ thể về cách xây dựng một công ty robot. Anh ấy đang đặt cược khác với những công ty được thổi phồng nhiều hơn trong lĩnh vực này¹ , một cách đặt cược giống như một con búp bê Nga với một siêu mẫu ở giữa - không quá gợi cảm ở bên ngoài nhưng càng bóc tách từng lớp thì càng quyến rũ hơn cho đến khi bạn đến được phần trung tâm và bạn sẽ phải thốt lên, "Trời ơi."

Vậy thì hãy bật nhạc Robot Rock lên nào…

Và chúng ta hãy bắt đầu thôi.

Chương trình "Không nhàm chán" hôm nay được tài trợ bởi… Framer

Framer mang đến cho các nhà thiết kế những khả năng siêu phàm.

Framer là trình tạo website không cần lập trình, ưu tiên thiết kế, cho phép bất kỳ ai cũng có thể tạo ra một trang web sẵn sàng hoạt động chỉ trong vài phút. Cho dù bạn bắt đầu với một mẫu có sẵn hay một trang trắng, Framer đều cung cấp cho bạn toàn quyền kiểm soát sáng tạo mà không cần lập trình. Thêm hiệu ứng động, bản địa hóa chỉ với một cú nhấp chuột và cộng tác theo thời gian thực với toàn bộ nhóm của bạn. Bạn thậm chí có thể thử nghiệm A/B và theo dõi số lượt nhấp chuột với công cụ phân tích tích hợp sẵn.

Framer đang cung cấp tháng đầu tiên sử dụng cossays miễn phí để bạn có thể trải nghiệm dịch vụ của chúng tôi. Hãy thể hiện sự ủng hộ của bạn dành cho Framer bằng cách xây dựng cho mình một thế giới trực tuyến nhỏ mà không cần thuê lập trình viên.

Khởi chạy miễn phí tại Framer.com. Sử dụng mã NOTBORING để được dùng thử Framer Pro miễn phí một tháng.

Chỉ cần xuất bản nó bằng Framer

Nhiều bước tiến nhỏ của robot, một bước nhảy vọt khổng lồ cho nhân loại.

Bài luận viết chung với Evan Beard

Trong ngành của tôi, có một niềm tin rằng giá trị của robot sẽ được khai thác một cách vượt bậc .

Ý nghĩa: Robot hiện tại chưa thực sự hữu ích, nhưng nếu bạn đầu tư đủ GPU, mô hình, dữ liệu và tiến sĩ vào vấn đề này, bạn sẽ vượt qua một ngưỡng nào đó, và ở phía bên kia ngưỡng đó, bạn sẽ gặp những robot có thể tự đi vào bất kỳ căn phòng nào và làm bất cứ điều gì chúng được lệnh.

Xét cả về giá trị tiền bạc lẫn chỉ số IQ, đây là quan điểm chiếm ưu thế. Tôi gọi đó là quan điểm "Bước nhảy vọt khổng lồ".

Quan điểm "Bước nhảy vọt khổng lồ" nghe có vẻ hấp dẫn. Nó hứa hẹn một thị trường hoàn toàn không giới hạn – thị trường lao động hiện nay trị giá khoảng 25 nghìn tỷ đô la, bị hạn chế bởi chi phí và sự không đáng tin cậy của con người; nếu robot trở nên rẻ, đa năng và tự chủ, lập luận cho rằng ta sẽ có nghịch lý Jevons đối với lao động. - Cơ hội này dành cho bất kỳ nhóm thiên tài nào trong một gara tạo ra được bước đột phá lớn đầu tiên. Đây là loại hình đổi mới mà Thung lũng Silicon yêu thích. Những bộ óc xuất chúng luôn yêu thích những cơ hội mà thành công chỉ cách một ý tưởng tuyệt vời.

Sự tiến bộ mà những người có niềm tin này đạt được thật đáng để theo dõi. Trên mạng, bạn có thể tìm thấy các video về robot đi bộ , lộn nhào , nhảy múa , dỡ hàng tạp hóa , nấu ăn , gấp quần áo, rửa bát . Điều này giống như trong phim hoạt hình Jetsons vậy. Chiến thắng của robot dường như cuối cùng chỉ còn là một bước tiến ngắn nữa thôi. Ở phía bên kia là sự giàu có, sức mạnh và sung túc.

Kết quả là, các công ty hoạt động dựa trên quan điểm này, dù là sản xuất mô hình hay robot hoàn chỉnh, đã huy động được phần lớn trong hàng tỷ đô la vốn đầu tư mạo hiểm đổ vào lĩnh vực robot trong vài năm qua. Con số này chưa bao gồm số tiền mà Tesla đã đầu tư từ nguồn vốn của mình vào robot hình người Optimus.

Nói rõ hơn, những tiến bộ họ đạt được là có thật . Các mô hình VLA (thị giác-ngôn ngữ-hành động), chính sách khuếch tán, học tập đa hình thái, chuyển giao từ mô phỏng sang thực tế. Tất cả những tiến bộ này đã mở rộng đáng kể khả năng của robot trong môi trường được kiểm soát. Tại các phòng thí nghiệm robot trên khắp thế giới, robot đang gấp quần áo, pha cà phê, rửa bát và làm nhiều việc khác nữa. Bất cứ ai giả vờ không biết điều đó đều hoặc là không chú ý hoặc là không nghiêm túc.

Chỉ khi bạn bắt đầu triển khai robot bên ngoài phòng thí nghiệm, một điều khác mới trở nên rõ ràng: sự tiến bộ của robot không bị giới hạn bởi một bước đột phá duy nhất. Không có một phát minh cơ bản nào có thể đột nhiên tự động hóa cả thế giới.

Cuối cùng chúng ta sẽ tự động hóa toàn thế giới. Nhưng luận điểm của tôi là sự tiến bộ sẽ diễn ra bằng cách leo lên nấc thang biến thiên .

Tính đa dạng là phạm vi các nhiệm vụ, môi trường và các trường hợp ngoại lệ mà robot phải xử lý. Ngành hàng không vũ trụ và xe tự lái sử dụng Miền Thiết kế Vận hành (ODD) để chính thức xác định các điều kiện mà hệ thống có thể hoạt động. Mở rộng ODD là cách mà tính tự chủ trưởng thành. Đối với robot, điều này thậm chí còn phức tạp hơn.

Các biến số của robot bao gồm những gì bạn đang xử lý (các sản phẩm giống hệt nhau so với hàng nghìn mã sản phẩm khác nhau), nơi bạn làm việc (kho hàng được điều hòa nhiệt độ với ánh sáng hoàn hảo so với công trường xây dựng với bụi bẩn, địa hình không bằng phẳng, thời tiết và bố cục thay đổi liên tục), độ phức tạp của nhiệm vụ (chuyển động lặp đi lặp lại đơn giản so với lắp ráp nhiều bước yêu cầu thay đổi dụng cụ), những người xung quanh (làm việc trong một khu vực khép kín so với cộng tác cùng công nhân trong không gian chung), độ rõ ràng của hướng dẫn (thực hiện các quy trình được lập trình sẵn so với diễn giải các lệnh bằng ngôn ngữ tự nhiên như "dọn dẹp chỗ này" hoặc "giúp tôi việc này"), và điều gì xảy ra khi có sự cố (dừng lại khi có sự cố so với phát hiện lỗi, chẩn đoán nguyên nhân và tự động khắc phục).

Nhân các biến số này lại với nhau, phạm vi có thể rất lớn² . Điều này là do phạm vi các công việc thực tế của con người vô cùng phức tạp. Một phép thử nhanh là một người không thể làm tất cả mọi công việc của con người.

Hầu hết các công việc thực tế không hoàn toàn lặp đi lặp lại, nhưng chúng cũng không hoàn toàn không có giới hạn. Chúng có cấu trúc, ràng buộc và sự biến đổi không thể tránh khỏi, điều này khiến Frederick Winslow Taylor, Henry Ford và nhiều nhà công nghiệp sau này không hài lòng. Các bộ phận khác nhau, những chiếc hộp hơi cong, ánh sáng không ổn định, đồ đạc cũ kỹ, con người xung quanh làm những việc khó lường.

Điều đó cũng đúng với robot.

Một mặt, bạn có tính năng phát lại chuyển động . Robot di chuyển từ điểm A đến điểm B theo cùng một cách, mỗi lần đều như vậy. Không cần trí thông minh nhân tạo. Đây là cách hoạt động của phần lớn các robot công nghiệp hiện nay. Bạn lưu một vị trí, rồi một vị trí khác, rồi một vị trí khác nữa, và robot sẽ đi theo con đường đó mãi mãi. Nó giống như chức năng "ghi macro" trong Excel. Nó hoạt động rất tốt miễn là không có gì thay đổi.

Ở thái cực khác, bạn có thể thấy một nhân viên như ở McDonald's . Cứ ba phút lại phải làm ở một vị trí khác nhau. Làm bánh mì kẹp thịt, rồi khoai tây chiên, rồi đến quầy thu ngân, rồi dọn dẹp. Những công việc hoàn toàn khác nhau, trình tự không thể đoán trước, có sự tương tác giữa người với người, môi trường hỗn loạn. Ước mơ về trí tuệ nhân tạo tổng quát là một robot có thể bước vào môi trường này và chỉ cần... làm việc.

Một bên là tự động hóa. Bên kia là quyền tự chủ. Giữa hai thái cực đó là hầu hết các công việc có giá trị kinh tế.

*Nhấp chuột để trải nghiệm Hệ thống Robot tương tác và xem các trường hợp sử dụng thực tế.*

Giữa tự động hóa và robot của McDonald's có thể thay thế hoàn toàn người lao động là một số lượng việc làm khổng lồ.

Tôi tin rằng những bước đi nhỏ trên toàn bộ phạm vi này chính là chìa khóa để chúng ta khai phá ra giá trị kinh tế to lớn hiện nay.

Đó chính là điều mà công ty Standard Bots của tôi đang đặt cược.

Standard Bots sản xuất robot tích hợp theo chiều dọc, sử dụng trí tuệ nhân tạo (AI). Hiện tại, chúng tôi đang tập trung vào khách hàng trong lĩnh vực sản xuất và logistics. Chúng tôi đã xây dựng một giải pháp toàn diện cho khách hàng để huấn luyện các mô hình AI robot, từ thu thập dữ liệu, xem xét và chú thích, đến huấn luyện và triển khai mô hình. Và chúng tôi làm cho các công cụ này đủ dễ sử dụng để người lao động sản xuất thông thường cũng có thể sử dụng được.

Trong một thị trường đầy rẫy những dự án táo bạo, chiến lược của chúng tôi có vẻ bảo thủ. Ngay cả doanh thu hàng chục triệu đô la cũng chẳng là gì so với giải thưởng cuối cùng, trị giá hàng nghìn tỷ đô la, mang lại sự thịnh vượng đang chờ đợi ở tương lai.

Không phải vậy.

Chúng tôi đang xây dựng một doanh nghiệp thực sự ngày hôm nay bởi vì chúng tôi tin rằng đó là con đường khả thi nhất để giúp chúng tôi đạt được trạng thái thịnh vượng trước tiên.

Hai chiến lược: Bước nhảy vọt khổng lồ hay bước tiến nhỏ?

Nếu bạn tin rằng có một lượng lớn các nhiệm vụ có giá trị kinh tế đang chờ đợi ở phía bên kia một ngưỡng nào đó, thì chiến lược tối ưu là đi thẳng đến đó. Tập trung nhóm của bạn vào phòng thí nghiệm. Mở rộng quy mô mô hình. Mở rộng quy mô tính toán. Đừng để bị phân tâm bởi các triển khai có thể làm chậm bạn. Hãy nhảy vọt .

Nếu bạn tin tưởng, giống như chúng tôi, rằng có một loạt các công việc có giá trị kinh tế cao, và robot có thể đảm nhiệm nhiều công việc trong số đó ngay hôm nay, thì điều tốt nhất nên làm là đưa robot vào sử dụng sớm và bắt đầu công việc.

Mỗi lần triển khai giúp bạn biết mình đang ở đâu trên thang đo hiệu quả. Thành công cho bạn thấy điều gì ổn định, thất bại cho bạn thấy mô hình bị lỗi ở đâu, và cả hai đều cho bạn biết chính xác cần phải sửa chữa điều gì tiếp theo. Bạn lặp lại . Bạn thực hiện từng bước nhỏ .

Trong các phòng thí nghiệm LLM hàng đầu, người ta đều nhất trí rằng dữ liệu là yếu tố quan trọng nhất. Chiến lược dữ liệu tối ưu là từng bước chinh phục phạm vi này, mỗi lần một trường hợp sử dụng. Bạn không cần “nhiều” dữ liệu hơn. Điều bạn thực sự cần là sự đa dạng³ , tính phù hợp với chính sách⁴ và chương trình giảng dạy⁵ . Việc từng bước chinh phục phạm vi này một cách lặp đi lặp lại là chiến lược tối ưu hóa tốt nhất cho ba khía cạnh của dữ liệu chất lượng với bất kỳ ngân sách đầu tư nào. Việc triển khai thực tế trên bot của bạn giúp bạn đạt được tính phù hợp với chính sách (không gì khác có thể làm được), thị trường tự động lựa chọn chương trình giảng dạy, và cả hai đều mang lại sự đa dạng phong phú và có ý nghĩa kinh tế.

Chúng tôi đã rút ra bài học này qua nhiều năm triển khai.

Mỗi khi robot phát triển để tích hợp thêm một khía cạnh khác của phạm vi công việc nằm giữa tự động hóa và tự chủ, nó cũng mở ra thêm một loạt công việc mới, một nhóm khách hàng mới, một phân khúc thị trường mới. Từng bước nhỏ một.

Lấy ví dụ việc vặn vít. Việc sử dụng trí tuệ nhân tạo (AI) toàn diện để tìm một con vít hoặc bu lông dễ dàng hơn nhiều so với việc cố gắng đặt mọi thứ vào một vị trí cố định đã được lên kế hoạch từ trước. Tìm kiếm và phản hồi rất tiết kiệm chi phí đối với các hệ thống học tập. Robot của chúng ta có thể di chuyển tua vít xung quanh cho đến khi nó cảm thấy rằng nó ở đúng vị trí. Nó lắc nhẹ tua vít. Nó cảm nhận được khi nào nó rơi vào rãnh. Nếu nó bị trượt, nó sẽ điều chỉnh. Và khi robot của chúng ta tìm ra cách vặn vít, nó sẽ mở khóa hàng loạt công việc liên quan đến việc vặn vít. Sau đó, chúng ta bắt đầu thực hiện những công việc đó và cũng học được những chi tiết cụ thể của từng công việc.

Chúng ta học hỏi trong quá trình làm việc và ngày càng giỏi hơn theo thời gian. Nhiều robot trong số này chưa hoàn hảo, nhưng chúng vẫn hữu ích. Không có ngưỡng nhất định nào mà bạn phải vượt qua trước khi robot trở nên hữu dụng.

Đó không phải là giả thuyết của chúng tôi. Đó là những gì thị trường đang cho chúng ta biết.

Robot công nghiệp đã là một thị trường lớn và được chứng minh hiệu quả. FANUC , nhà sản xuất cánh tay robot hàng đầu thế giới, đạt doanh thu hàng năm khoảng 6 tỷ đô la. Bộ phận robot của ABB đạt thêm 2,4 tỷ đô la vào năm 2024. Universal Robots , được Teradyne mua lại vào năm 2015, tạo ra doanh thu hàng trăm triệu đô la mỗi năm.

Những hệ thống này hoạt động được, mặc dù chúng hoạt động theo những cách rất hạn chế. Các công ty mất hàng tuần để tích hợp chúng. Các nhóm phải thuê chuyên gia để lập trình các chuỗi chuyển động phức tạp. Khi một nhiệm vụ thay đổi, những chuyên gia đó lại phải quay lại để lập trình lại toàn bộ, với một khoản phí. Robot lặp đi lặp lại các chuyển động giống nhau vô tận, và chúng chỉ hoạt động miễn là môi trường vẫn giữ nguyên như cũ.

Bất chấp tất cả những khó khăn đó, khách hàng vẫn tiếp tục mua những robot này! Đó là bằng chứng của thị trường. Ngay cả tự động hóa hạn chế và thiếu linh hoạt cũng tạo ra đủ giá trị để toàn bộ các ngành công nghiệp phát triển dựa trên nó. Phân khúc ít biến đổi ở phía bên trái của phổ đã hỗ trợ hàng tỷ đô la kinh doanh.

Trong học máy, sự tiến bộ hiếm khi đến từ một bước nhảy vọt duy nhất. Nó đến từ quá trình leo dốc dần dần : thực hiện những cải tiến nhỏ, nhất quán dựa trên phản hồi từ môi trường.

Chúng tôi cũng có suy nghĩ tương tự về robot.

Kế hoạch của chúng tôi không phải là nhảy vọt từ các cuộc trình diễn trong phòng thí nghiệm sang robot thông minh tổng quát. Thay vào đó, kế hoạch của chúng tôi là leo lên nấc thang đa dạng của thế giới thực và nắm bắt được nhiều khía cạnh hơn.

Cho đến nay mọi việc vẫn đang diễn ra tốt đẹp. Chúng tôi đã triển khai hơn 300 robot tại các khách hàng, bao gồm NASA, Lockheed Martin và Verizon. Chúng tôi kết thúc năm với doanh thu đạt tốc độ 24 triệu đô la, cùng hàng trăm triệu đô la giá trị thư bày tỏ ý định mua hàng (LOI) và các đơn hàng tiềm năng đủ điều kiện. Điểm uốn cong trên đường cong này là do robot của chúng tôi ngày càng trở nên tốt hơn và dễ sử dụng hơn khi chúng (và chúng ta) học hỏi được nhiều hơn.

Khách hàng hài lòng vì chúng tôi đã dễ triển khai hơn đáng kể và chi phí thích ứng thấp hơn so với tự động hóa truyền thống, và mặc dù chúng tôi chưa có các mô hình AI thông minh tổng quát có thể tự động hóa mọi tác vụ, nhưng chúng tôi đã có thể tự động hóa các công việc với mức độ đa dạng mà không một công ty robot nào khác có thể làm được.

Chúng ta cũng kỳ vọng một ngày nào đó robot sẽ làm được mọi việc. Chúng ta chỉ tin rằng:

Kế hoạch của chúng tôi là kiếm tiền bằng cách ăn toàn bộ phổ năng lượng . Trong quá trình đó, chúng tôi dự định thu thập dữ liệu mà không ai khác có thể thu thập được. Sau đó, chúng tôi sẽ sử dụng dữ liệu này, được thiết kế riêng cho robot của chúng tôi, để nhanh chóng cải tiến toàn bộ hệ thống nhằm đạt được hiệu quả kinh tế tổng thể trước khi các phương pháp tiếp cận trực tiếp, thiếu đột phá khác làm được điều đó.

Có rất nhiều yếu tố đằng sau quyết định đặt cược của chúng tôi. Điều đầu tiên và quan trọng nhất bạn cần hiểu là ngành robot đang bị tắc nghẽn về dữ liệu .

Ngành robot đang gặp tắc nghẽn về dữ liệu.

Robot hiện nay hoạt động rất tốt một cách tự động ở những nơi có nhiều dữ liệu tốt. Ví dụ, việc cắt và trồng lại các mảnh cây để nhân bản chúng như trong video dưới đây.

Điều này nghe có vẻ không trực quan, bởi vì nó gần như là thách thức ngược lại mà các Mô hình Ngôn ngữ Lớn (LLM) dường như phải đối mặt. Điều mà người dùng AI thông thường như bạn và tôi trải nghiệm là các mô hình được cải thiện và LLM tự động biết nhiều thứ hơn.

Nhưng các sinh viên chương trình LLM lại có cuộc sống tương đối dễ dàng. Toàn bộ internet đã tồn tại như một kho dữ liệu huấn luyện được xây dựng sẵn. Có nhiều thông tin trên internet hơn bạn có thể tưởng tượng. Bất kỳ câu hỏi nào bạn có thể hỏi một sinh viên LLM, internet có lẽ đã hỏi và trả lời rồi. Phần khó khăn là xây dựng các kiến trúc có thể học hỏi từ tất cả những thông tin đó.

Ngành robot lại gặp phải vấn đề ngược lại.

Các kiến trúc này về cơ bản đã tồn tại. Chúng ta đã chứng kiến những bước đột phá thực sự trong học máy robot trong vài năm qua khi các ý tưởng quan trọng từ các mô hình ngôn ngữ lớn được áp dụng vào các hệ thống vật lý. Ví dụ, Chính sách Khuếch tán của Viện Nghiên cứu Toyota cho thấy rằng việc coi các chính sách điều khiển robot như các mô hình tạo sinh có thể cải thiện đáng kể tốc độ học các kỹ năng thao tác khéo léo của robot. Điều kỳ diệu của phương pháp này là nó đã sử dụng kiến trúc chủ yếu được dùng để tạo ra hình ảnh, trong đó mô hình học cách loại bỏ nhiễu một cách lặp đi lặp lại như trong ảnh GIF bên dưới…

…và thay vào đó, họ áp dụng nó để tạo ra đường đi cho bộ phận kẹp của robot. Một ý tưởng hiệu quả trong lĩnh vực này được áp dụng vào lĩnh vực khác và kết quả thật tuyệt vời — hiệu quả khá tốt.

Những tiến bộ mở ra kỷ nguyên mới này là những tiến bộ nhỏ nhưng tích lũy dần. Ví dụ, hãy xem xét điều mà các nhà nghiên cứu gọi là “phân đoạn hành động”, trong đó mô hình dự đoán một chuỗi các điểm cần di chuyển trong tương lai thay vì chỉ một điểm duy nhất. Điều đó giúp cải thiện hiệu suất và độ mượt mà rất nhiều.

Các mô hình thị giác-ngôn ngữ-hành động như RT-2 kết hợp khả năng hiểu ngữ nghĩa quy mô web với dữ liệu robot để chuyển đổi các chỉ dẫn cấp cao thành các hành động vật lý. Các hệ thống như ALOHA Unleashed chứng minh rằng học tập bắt chước dựa trên Transformer có thể cho phép robot thực xử lý các nhiệm vụ phức tạp, nhiều giai đoạn — bao gồm buộc dây giày và phân loại đồ vật — bằng cách quan sát các bài trình diễn. Và các mô hình nền tảng dựa trên khuếch tán mới nổi như RDT-1B cho thấy rằng việc huấn luyện trên các tập dữ liệu robot lớn, đa dạng cho phép khái quát hóa không cần huấn luyện và học tập ít cần huấn luyện trên nhiều hình thái khác nhau.

Nhưng tất cả các nghiên cứu đó đều tìm ra một điều tương tự. Để những đổi mới đáng kể đó xảy ra với tỷ lệ thành công hợp lý, bạn cần dữ liệu về robot cụ thể của mình, thực hiện nhiệm vụ cụ thể của mình, trong môi trường cụ thể của mình.

Nếu bạn huấn luyện một robot gấp áo sơ mi và sau đó yêu cầu nó gấp một chiếc áo, nó sẽ làm được. Đặt những chiếc áo vào các môi trường khác nhau, trên các bàn khác nhau, dưới ánh sáng khác nhau. Nó vẫn làm được. Mô hình đã học được cách khái quát hóa trong phạm vi phân bố của "gấp áo sơ mi". Nhưng sau đó hãy thử yêu cầu nó treo áo khoác, xếp khăn tắm hoặc làm bất cứ điều gì khác biệt đáng kể so với gấp áo sơ mi. Nó sẽ thất bại. Nó không phải là ngu ngốc. Chỉ là nó chưa bao giờ thấy ai làm những việc đó mà thôi.

*Điều kỳ diệu của các mô hình này là cách chúng nội suy để xử lý sự biến đổi chưa từng thấy, nhưng chỉ trong phạm vi tập dữ liệu huấn luyện.*

Robot có thể nội suy trong phạm vi phân phối dữ liệu huấn luyện của chúng. Chúng gặp khó khăn khi nằm ngoài phạm vi đó. Điều này cũng đúng với các mô hình tuyến tính (LLM). Chỉ là tập dữ liệu huấn luyện của chúng quá lớn nên không còn nhiều dữ liệu nằm ngoài phân phối nữa.

Vấn đề này khó có thể được giải quyết bằng cách tăng sức mạnh tính toán hoặc cải tiến thuật toán. Đó là đặc điểm cơ bản trong cách thức hoạt động của các mô hình này. Chúng cần các ví dụ về điều mà bạn muốn chúng thực hiện.

Vậy làm thế nào để thu thập dữ liệu ví dụ?

Một giải pháp là tạo ra nó trong phòng thí nghiệm. Hãy nghĩ ra tất cả các trường hợp ngoại lệ mà bạn có thể hình dung và đưa chúng cho robot của bạn. Tuy nhiên, như John Carmack đã cảnh báo, “thực tế có một lượng chi tiết đáng ngạc nhiên”. Thế giới thực sẽ cười nhạo những trường hợp ngoại lệ của các nhà nghiên cứu và thậm chí còn gửi đến những trường hợp ngoại lệ hơn nữa.

Một giải pháp khác là quay video cảnh mọi người thực hiện tất cả những việc mà bạn muốn robot làm. Nghiên cứu đã cho thấy dấu hiệu khả thi ở khía cạnh này.

Ví dụ, Skild đã chứng minh rằng một robot có thể học cách thực hiện một số công việc nhà thông thường từ video và chỉ cần một giờ dữ liệu hoạt động của robot cho mỗi công việc.

*Trí tuệ nhân tạo Skild,* *học hỏi bằng cách xem video của con người.*

Đây là một bước tiến đáng mừng, và ngay trong tuần này, Skild đã công bố vòng gọi vốn Series C trị giá 1,4 tỷ đô la do Softbank dẫn đầu, với mức định giá hơn 14 tỷ đô la.

Tóm lại, video tổng quát có thể nâng cao khả năng ban đầu của một mô hình. Nhưng nó vẫn không loại bỏ được nhu cầu về dữ liệu trên robot để xây dựng chính sách cuối cùng, ngay cả đối với các tác vụ đơn giản như nhặt và đặt đồ vật trong gia đình (và các tác vụ công nghiệp sẽ cần nhiều dữ liệu hơn). Thứ nhất, robot cần dữ liệu 3D, bao gồm mô-men xoắn và lực, và dữ liệu cần được ghi nhận theo thời gian. Chúng gần như cần cảm nhận được các chuyển động. Video không có dữ liệu này và văn bản chắc chắn không có.

Nó giống như việc đọc nhiều sách giúp viết được một cuốn sách hay hơn, nhưng xem nhiều video về golf lại không giúp ích gì nhiều cho việc chơi golf thực tế.

Nếu tôi muốn học chơi golf, tôi cần phải thực sự ra ngoài và dùng cơ thể để vung gậy. Tương tự như vậy,

Cách tốt nhất để thu thập dữ liệu là sử dụng phần cứng . Và để làm điều đó, có một số phương pháp thu thập khác nhau: cánh tay robot kiểu dẫn dắt-theo dõi, thiết bị cầm tay có cảm biến, găng tay và thiết bị đeo được, thực tế ảo (VR) và điều khiển từ xa, và thao tác trực tiếp, tức là di chuyển cánh tay và nắm lấy một vật thể.

Tất cả các phương pháp này đều có thể hiệu quả. Mỗi phương pháp đều có ưu điểm và nhược điểm riêng. Chúng tôi sử dụng kết hợp nhiều phương pháp khác nhau.

Nhưng hãy tiếp tục với ví dụ về golf. Tập luyện với bất kỳ cơ thể người nào cũng tốt hơn là xem video, nhưng tập luyện với chính cơ thể mình là tốt nhất. Đó là cơ thể mà tôi sẽ thực sự sử dụng để chơi.

Tương tự, ngay cả dữ liệu từ các robot khác cũng không có giá trị bằng dữ liệu từ phần cứng của chính bạn. Nếu dữ liệu và phần cứng của bạn không đồng bộ, bạn cần lượng dữ liệu gấp 100 hoặc 1000 lần. Nếu tôi muốn nghiên cứu robot của mình nhưng lại không có robot đó, tôi có thể sử dụng một robot tương tự để quan sát hoạt động của nó. Nhưng để đạt hiệu quả, tôi cần rất nhiều robot tương tự.

Đây là một trong nhiều thách thức đối với các mô hình robot nói chung.

Bước nhảy vọt khổng lồ thực sự đòi hỏi điều gì?

Lý lẽ phản bác rõ ràng nhất đối với tất cả những gì tôi đã lập luận cho đến nay và sẽ tiếp tục lập luận trong suốt bài viết này là, mặc dù các mô hình Giant Leap chưa thực sự hữu ích trong thế giới thực, nhưng chắc chắn chúng sẽ làm được điều đó khi các phòng thí nghiệm tiếp tục đạt được những đột phá. Thiếu phép thuật thì chẳng vui vẻ gì!

Tuy nhiên, với số tiền khổng lồ được đầu tư vào lĩnh vực này, điều đáng ngạc nhiên là công chúng lại có rất ít suy nghĩ thấu đáo về ý nghĩa thực sự của phương pháp "Bước nhảy vọt khổng lồ".

Họ đang đặt cược gì, hoặc một loạt các cược gì, và chúng ta nên suy luận về chúng như thế nào?

Phương pháp mà chúng tôi đang áp dụng tại Standard Bots rất khó khăn. Nó thường chậm và gây nản lòng. Và từ bên ngoài, có một rủi ro rất lớn là chúng tôi làm tất cả công việc này rồi một ngày nào đó thức dậy và một trong những phòng thí nghiệm lớn đã… tìm ra lời giải. Nhưng tôi tự tin vào phương pháp của mình vì tôi không nghĩ rằng các quan điểm “Bước nhảy vọt khổng lồ” sẽ tạo ra những đột phá có ý nghĩa, và tôi muốn giải thích lý do tại sao.

Chắc chắn rồi, bạn sẽ tiếp tục thấy những lời chào mời ngày càng kỳ diệu hơn trên Twitter của robot:

“Chúng ta có thể huấn luyện bằng video trên YouTube. Không cần dữ liệu robot!”

“Chúng ta có thể tạo ra dữ liệu còn thiếu trong quá trình mô phỏng!”

“Chúng ta đang xây dựng một mô hình toàn cầu. Robot không cần lập trình là điều tất yếu!”

Và một số trong số đó thậm chí còn đúng hướng. Có những tiến bộ thực sự đằng sau nhiều lời bàn tán. Nhưng cũng có rất nhiều sự ồn ào.

Tôi xin nhắc lại, tôi có thành kiến ở đây. Nhưng tôi cũng đang đầu tư thời gian và tiền bạc vào thành kiến đó. Vì vậy, đây là cách tôi nghĩ về những gì thực sự đang diễn ra — những gì Google, Trí tuệ Vật lý (Pi hoặc π) và Skild đang thực sự làm trong phòng thí nghiệm để theo đuổi một bước đột phá thực sự — từ (đừng nói ra, đừng nói ra) những nguyên tắc cơ bản.

Mô hình bắt đầu những bước đi đầu tiên

Rất nhiều tiến bộ trong lĩnh vực robot-AI hiện đại bắt đầu theo cùng một cách: huấn luyện trước khả năng nhận thức, học các hành động từ đầu . Nghĩa là, dạy robot cách nhận thức và để nó học bằng cách nhận thức.

Hãy xem xét Chính sách Phổ biến của Viện Nghiên cứu Toyota. Bộ mã hóa hình ảnh (phần chuyển đổi pixel thành định dạng mà mô hình có thể sử dụng) được huấn luyện trước trên các hình ảnh quy mô internet, nhưng mô hình hành động lại bắt đầu gần như trống rỗng.

Việc bắt đầu "trống rỗng" là... không lý tưởng, bởi vì mô hình chưa có cái mà các nhà nghiên cứu gọi là nền tảng nhận thức-hành động . Nó chưa học được mối quan hệ chặt chẽ giữa những gì nó nhìn thấy và những gì nó làm:

"Di chuyển sang trái" trong không gian máy quay nên có nghĩa là di chuyển sang trái trong thế giới thực.
Dụng cụ kẹp hai ngón tay có thể kẹp cốc ở quai hoặc vành cốc, nhưng không thể dùng ngón tay chọc vào giữa cốc như trẻ nhỏ đang cố ăn súp bằng nĩa.
Sự tiếp xúc là vật lý, không chỉ đơn thuần là hình học. Thế giới thay đổi khi bạn tương tác với nó.

Giai đoạn định hướng này về cơ bản giống như giai đoạn của trẻ mới biết đi: Tôi nhìn thế giới, tôi vùng vẫy với thế giới, đôi khi tôi thành công, phần lớn là tôi tự đập vào mình.

Nhưng hầu hết các đội nghiêm túc đều có thể thu thập đủ dữ liệu về robot để thiết lập nền tảng cơ bản trong vài ngày. Cho đến nay, mọi việc đều tốt đẹp.

Cách huấn luyện robot

Giả sử bạn muốn huấn luyện một robot thực hiện một nhiệm vụ. Đây là những gì bạn cần làm:

1. Thu thập dữ liệu

2. Mô hình tàu hỏa

3. Đánh giá và cải tiến liên tục

Thu thập dữ liệu : Bạn có thể điều khiển từ xa trong phòng thí nghiệm, thế giới thực, mô phỏng, hoặc học hỏi từ internet hay video được tạo ra. Mỗi lựa chọn đều có những ưu nhược điểm riêng, và các công ty robot dành rất nhiều thời gian để suy nghĩ và thử nghiệm về những ưu nhược điểm này.

Huấn luyện mô hình : Bạn sẽ xây dựng mô hình từ đầu hay dựa vào mô hình đã được huấn luyện trước đó để khởi tạo? Việc huấn luyện từ đầu sẽ dễ dàng hơn nếu bạn đang xây dựng một mô hình nhỏ . Các mô hình lớn thường có toàn bộ quy trình và công thức huấn luyện bao gồm các giai đoạn tiền huấn luyện, huấn luyện trong quá trình và hậu huấn luyện. Tiền huấn luyện dạy cho robot những kiến thức cơ bản về cách thế giới vận hành (vật lý tổng quát, chuyển động, ánh sáng). Hậu huấn luyện là về việc cung cấp cho các nhiệm vụ những khả năng cụ thể.

Theo thuật ngữ LLM, huấn luyện trước (pre-training) dạy mô hình cách các từ có mối liên hệ với nhau trong phân phối dữ liệu huấn luyện. Nó học được các biểu diễn tiềm ẩn của chúng. Huấn luyện sau (post-training, instructGPT, RLHF, Codex) giúp mô hình sẵn sàng cho các trường hợp sử dụng triển khai như trợ lý trò chuyện hoặc lập trình. Huấn luyện sau cũng có thể làm cho robot nhanh hơn, rẻ hơn và chính xác hơn bằng cách tối ưu hóa quỹ đạo bằng học tăng cường (RL). Phần lớn những thảo luận về RL mà bạn nghe thấy trong thế giới LLM thực chất bắt đầu từ các chính sách cụ thể cho từng nhiệm vụ của robot.

Nghe có vẻ tuyệt vời, nhưng bạn vẫn cần dữ liệu. Câu hỏi lớn là: làm thế nào để thu thập dữ liệu?

Những giấc mơ video (và giới hạn của chúng)

Những người tiên phong trong lĩnh vực này có hai phương án cứu cánh quan trọng để thu thập dữ liệu mà họ cần.

Thứ nhất là video có sẵn trên toàn bộ internet .

Rõ ràng là các mô hình học được điều gì đó từ video: tính bền vững của vật thể, hình học thô sơ, cấu trúc vật lý tiềm ẩn, khả năng ảo giác về mặt sau của các vật thể mà chúng chưa từng thấy (điều này có thể rất thú vị hoặc vô cùng đáng lo ngại, tùy thuộc vào mối quan hệ của bạn với thực tế).

Vậy tại sao không thử xem YouTube, tìm hiểu về thế giới, rồi sau đó... làm robot?

Hãy suy nghĩ về điều này trước tiên. Con người có thể học được gì từ việc xem video? Và họ không thể học được gì?

Video rất hữu ích cho nhiều mục đích:

Quỹ đạo và trình tự : Video rất hiệu quả trong việc thể hiện quỹ đạo chuyển động và trình tự các bước trong một hành động.
Khả năng sử dụng và mục tiêu : Bạn quan sát ai đó xoay một cái núm và bạn nhận ra rằng núm muốn được xoay. Công tắc muốn được nhấn.
Thời gian và nhịp điệu : Thời gian rất quan trọng đối với những việc như di chuyển, lắp ráp, hoặc bất cứ thứ gì về cơ bản là sự sắp đặt. Video mang yếu tố thời gian.

Nếu bạn đang học cách cầm nắm, video có thể hướng dẫn bạn: vươn tới → hạ xuống → khép các ngón tay → nâng lên.

Và nó có thể thể hiện cách sử dụng công cụ : độ nghiêng của một chiếc cốc, cú vung búa, cách mọi người "gian lận" bằng cách trượt đồ vật thay vì nhấc chúng lên.

Nhưng có cả những loại dữ liệu mà video không thể truyền tải được: khối lượng, lực, độ đàn hồi, ma sát, độ cứng, động lực tiếp xúc.

Con người đôi khi có thể suy luận được một số điều này bằng thị giác, nhưng chỉ vì chúng ta dựa vào kinh nghiệm sống tích lũy suốt đời. Robot thì không có kinh nghiệm đó.

Trong các thí nghiệm với hơn 2.200 người tham gia, các nhà nghiên cứu Michael Kardas và Ed O'Brien đã xem xét điều gì xảy ra khi mọi người xem các video hướng dẫn để học các kỹ năng thể chất như đi bộ trên mặt trăng, tung hứng và ném phi tiêu. Kết quả thật đáng kinh ngạc:

Khi xem càng nhiều video, sự tự tin của mọi người càng tăng lên đáng kể. Trong khi đó, hiệu suất thực tế của họ hầu như không thay đổi, thậm chí còn tệ hơn.

Đó chính là khoảng cách về cảm nhận thực tế . Video chỉ cho bạn biết phải làm gì , nhưng không cho bạn biết cảm giác khi thực hiện điều đó như thế nào. Bạn có thể xem ai đó nhảy moonwalk cả ngày. Bạn vẫn sẽ không cảm nhận được độ bám của sàn nhà với giày, áp lực truyền lên các ngón chân, và cách điều chỉnh lực căng mà không bị ngã sấp mặt.

Và robot còn khổ hơn cả con người. Ít nhất chúng ta còn có thông tin tiên nghiệm. Robot thì chỉ có cảm biến và toán học.

Tôi sắp nói một điều hơi "cay" một chút đấy.

Nếu không để ý kỹ, có vẻ như việc cho robot xem video trên internet đang có hiệu quả.

Hãy xem kỹ các video minh họa "học bằng cách quan sát" của Skild . Chỉ những tác vụ đơn giản nhất mới sử dụng "một giờ dữ liệu từ con người". Những video minh họa ấn tượng hơn được lồng ghép ở giữa video mà không có nhãn đó. Và các video này cũng không phải là những video ngẫu nhiên được lấy từ YouTube. Chúng là những đoạn ghi hình góc nhìn thứ nhất được thu thập cẩn thận từ camera gắn trên đầu. Liệu việc làm tất cả những điều này có dễ dàng hơn nhiều so với việc chỉ sử dụng robot?

Tóm lại, có ba lý do chính khiến video không đủ:

Phạm vi phủ sóng: Video trên internet không thể bao quát hết thực tế kỳ lạ, hạn chế và đầy thách thức của môi trường công nghiệp.
Hiệu quả dữ liệu: việc học chỉ từ video thường đòi hỏi lượng dữ liệu lớn hơn nhiều lần so với việc học từ dữ liệu do robot thu thập, bởi vì việc ánh xạ từ pixel sang hành động bị hạn chế nếu không có khả năng cảm nhận dựa trên hình thể.
Các lực bị thiếu: hai bề mặt có thể trông giống hệt nhau nhưng lại có hành vi hoàn toàn khác nhau. Video không thể phân biệt được ma sát. Robot tìm ra điều đó theo cách thú vị.

Sau đó, bạn vẫn gặp phải vấn đề về chuyển đổi: bàn tay người không phải là bộ phận kẹp của robot, động học khác nhau, tỷ lệ khác nhau, độ đàn hồi khác nhau, sai số hệ thống sẽ xuất hiện trừ khi bạn luyện tập với chính xác bộ phận cuối cùng mà bạn sẽ sử dụng.

Đó là lý do tại sao nhiều công ty cuối cùng lại âm thầm quay trở lại hình thức điều hành từ xa.

Video quay cảnh con người rất hữu ích cho việc huấn luyện trước. Nhưng dữ liệu thiếu độ tin cậy sẽ gây ra tổn thất thực sự: bạn có thể phải bỏ công sức leo lên đỉnh đồi, hoặc bạn có thể đi lạc hướng rất lâu và gọi đó là tiến bộ.

Được rồi, vậy thì các video trên YouTube không hữu ích lắm. Còn phương pháp mô phỏng thì sao?

Mô hình thế giới hoạt động hiệu quả ở những trường hợp nào và không hiệu quả ở những trường hợp nào.

Mô phỏng và học tăng cường (RL) là một giải pháp cứu cánh lớn khác. Nếu robot có thể tự chơi trong môi trường mô phỏng bắt chước các định luật vật lý của thế giới thực, thì thuật toán đã được huấn luyện sẽ có thể áp dụng cho robot thực trong thế giới thực. Và công bằng mà nói: mô phỏng hiện đang rất tốt ở một số khía cạnh, đặc biệt là động lực học vật thể rắn .

NVIDIA đã nỗ lực rất nhiều trong việc phát triển khả năng di chuyển. Tác phẩm của Disney (được giới thiệu trong bài phát biểu quan trọng của Jensen tại GTC 2025) cho thấy điều kỳ diệu khi kết hợp vật lý tốt với khả năng điều khiển tốt: những người máy hình người có thể đi bộ, lật người, phục hồi (một cách đẹp mắt) trong môi trường mô phỏng.

Thành công đó đến từ hai yếu tố:

Các định luật vật lý trong trường hợp này khá dễ xử lý: Trình mô phỏng có thể xử lý tốt các vật thể rắn + va chạm + trọng lực. Bạn có thể ngẫu nhiên hóa địa hình, tạo ra chướng ngại vật và huấn luyện các thuật toán di chuyển mạnh mẽ mà không cần tác động đến thế giới thực.
Mục tiêu có thể xác định rõ: Học tăng cường cần có phần thưởng.

Đối với việc đi bộ, những lợi ích rất rõ ràng: quãng đường đã đi, sự ổn định, lượng năng lượng tiêu hao, tốc độ.

Đối với hoạt hình, cách làm thậm chí còn đơn giản hơn: khớp chuyển động tham chiếu mà không bị rơi.

Vậy nên, chuyển động là lĩnh vực lý tưởng vì ba yếu tố sau đây hội tụ đầy đủ cho học máy: bạn có thể mô phỏng vật lý, đo lường mục tiêu và thiết lập lại miễn phí khi mọi thứ không suôn sẻ.

Sau đó, người ta cố gắng suy luận từ việc đi bộ sang làm việc trong nhà máy, và mọi thứ đều đổ vỡ.

Khi bạn thực hiện các công việc thực tế trong thế giới thực, vật lý trở nên phức tạp hơn. Các nhiệm vụ thực tế liên quan đến vật liệu mềm, bao bì biến dạng, chất lỏng, định tuyến cáp, ma sát phụ thuộc vào sự mài mòn, dung sai chặt chẽ và kết quả chủ yếu phụ thuộc vào tiếp xúc.

Bạn có thể mô phỏng một số phần của việc này, nhưng thực hiện một cách toàn diện và chính xác sẽ trở thành một nỗ lực thủ công khổng lồ. Và bạn vẫn không thể bao quát được các trường hợp ngoại lệ mà bạn gặp trong thực tế. Tóm lại, tốt hơn hết là bạn nên làm thử nghiệm thực tế.

Với các nhiệm vụ thực tế, phần thưởng trở nên khó xác định hoặc không thể viết ra được . "Làm một chiếc bánh sandwich" không phải là một nhiệm vụ có thể đo lường được. Ngay cả "đặt bộ phận này xuống" cũng đầy rẫy những ràng buộc: đừng làm rách, đừng làm đổ, phải căn chỉnh, phải lấy lại nếu bị trượt, đừng làm kẹt, đừng làm trầy xước bề mặt, đừng làm điều mà trong mô phỏng thì được nhưng lại làm hỏng máy trong thực tế.

Waymo là một ví dụ tuyệt vời. Hiện nay Waymo sử dụng rất nhiều mô phỏng, nhưng việc thu thập dữ liệu thực tế từ con người lái xe đã có từ rất lâu trước khi mô hình thế giới được tạo ra. Bạn có nhớ các nhân viên của Google đã lái những chiếc xe trông ngớ ngẩn đó để thu thập dữ liệu trong bao lâu trước khi Waymo thực hiện chuyến đi tự lái đầu tiên không? Như công ty đã viết trong mộtbài đăng trên blog gần đây , “ Đơn giản là không có gì có thể thay thế được khối lượng kinh nghiệm lái xe tự động thực tế này — không có bất kỳ mô phỏng nào, việc thu thập dữ liệu do người lái điều khiển thủ công, hay các hoạt động với người lái thử nghiệm nào có thể tái tạo được toàn bộ các tình huống và phản ứng mà Waymo Driver gặp phải khi nó hoàn toàn tự điều khiển. ”

Bạn cần thu thập dữ liệu đó trong thế giới thực, sau đó bạn có thể phát lại và khuếch đại nó trong mô phỏng. Đó là cách bạn có được những điểm "chín" cuối cùng.

Ngoài ra, còn có việc thiết lập lại. Những gì cần thiết để bắt đầu lại từ đầu.

Trong mô phỏng, việc thiết lập lại là miễn phí. Trong thực tế, việc thiết lập lại tốn công sức. Đi bộ là trường hợp ngoại lệ hiếm hoi vì thao tác thiết lập lại chỉ là "đứng dậy", nhưng nếu bạn muốn một robot học cách làm bánh mì kẹp thông qua thử và sai, thì ai đó phải: dọn dẹp, bổ sung nguyên liệu, thiết lập lại, thử lại và lặp đi lặp lại mãi mãi, dần dần mất đi ý chí sống. Dọn dẹp sau một con robot chưa hoàn thiện không phải là lý do bạn đăng ký trở thành nhà nghiên cứu robot.

Vì vậy, mô phỏng rất có giá trị, nhưng nó vẫn không thể thay thế việc thu thập dữ liệu thực tế. Việc sử dụng mô phỏng hiệu quả nhất là sau khi triển khai: khi robot thực tế gặp phải các lỗi thực sự, và mô phỏng được sử dụng để tái tạo và nhân rộng những trường hợp hiếm gặp đó.

Điều này đưa chúng ta trở lại với những nguyên tắc cơ bản.

Vậy đâu là cách tốt nhất để huấn luyện robot? (Giống như cách bạn huấn luyện con người)

Hãy nghĩ về cách bạn huấn luyện một con người.

Đối với những công việc đơn giản, văn bản là đủ. Đối với những công việc khó hơn một chút, danh sách kiểm tra sẽ hữu ích. Nhưng hầu hết công việc thực tế trong nhà máy không đơn giản như vậy. Bạn cần sự phối hợp, thời gian, khả năng phán đoán, khả năng phục hồi và khả năng xử lý "những sự cố bất ngờ xảy ra".

Đến lúc đó, minh họa sẽ thắng thế. Đó là cách truyền đạt ý định hiệu quả nhất. Đó là lý do tại sao những người làm trong các ngành nghề thủ công lại trở thành người học việc.

Điều này cũng đúng với robot. Và việc robot mất vài phút hoặc thậm chí vài giờ để học một nhiệm vụ là hoàn toàn bình thường, miễn là tín hiệu học tập có chất lượng cao.

Thời gian huấn luyện không nhất thiết phải bằng không.

Điều này dẫn đến điều chúng ta vẫn luôn nói: bước nhảy vọt khổng lồ không phải, và không thể nào là, mang tính kiến trúc .

Bước nhảy vọt khổng lồ, thời điểm mà mô hình đột nhiên nhìn thấy đủ và có thể làm bất cứ điều gì, không có thật. Nó hấp dẫn và quyến rũ (có lẽ một phần vì nó luôn nằm ngoài tầm với). Nhưng nó không tồn tại. Ngay cả những người thông minh nhất cũng cần được đào tạo và hướng dẫn. Terence Tao cần nhiều năm để trở thành một thợ hàn chuyên nghiệp.

Chúng tôi cho rằng câu trả lời đơn giản chỉ là dành thời gian để thu thập dữ liệu phù hợp. Dữ liệu cụ thể cho từng robot, cụ thể cho từng nhiệm vụ, có độ chính xác cao, ngay cả khi điều đó có nghĩa là ít bản demo trực tuyến hào nhoáng hơn.

Từ đó suy ra ba điều:

Bạn sẽ luôn cần dữ liệu dành riêng cho robot.
Cách hiệu quả nhất để truyền đạt một nhiệm vụ là thể hiện nó (điều khiển từ x

Khu vực:

Jump Crypto

Phái Sinh

Solana Ecosystem

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan