Chào mừng 1.179 người mới gia nhập Not Boring sau khi đọc bài luận mới nhất của chúng tôi! Hãy tham gia cùng 256.826 người thông minh, ham học hỏi khác bằng cách đăng ký tại đây:
Chào các bạn 👋,
Chúc thứ Năm vui vẻ! Tôi rất vui mừng được mang đến cho các bạn bài luận hợp tác đầu tiên trên thế giới (hay "cossay"? cần thêm từ ngữ phù hợp hơn) cùng với người bạn Evan Beard , đồng sáng lập kiêm CEO của Standard Bots .
Evan là người hoàn hảo để bắt đầu việc này.
Tôi quen Evan khoảng 20 năm rồi, thật không thể tin được. Chúng tôi học cùng trường Duke, cùng làm việc tại một công ty khởi nghiệp thực sự trên khuôn viên trường (và nó vẫn còn tồn tại !), thậm chí còn cùng nhau thắng một cuộc thi giải quyết tình huống kinh doanh của Lehman Brothers (nhờ đó chúng tôi có cơ hội phỏng vấn tại ngân hàng đầu tư ngay trước khi nó phá sản).
Sau khi tốt nghiệp, Evan lập tức bước chân vào lĩnh vực công nghệ. Anh ấy là một trong những thành viên đầu tiên của YC, khi đó YC còn nhỏ. Anh ấy đã thành lập một công ty cùng với Ashton Kutcher. Tôi vốn đã quan tâm đến công nghệ và luôn thích trò chuyện với Evan, nên chúng tôi thường gặp nhau tại các buổi họp mặt rồi lại đường ai nấy đi. Vào tháng 9 năm 2023, một người quen chung đã gửi email cho tôi nói rằng “có một công ty mà bạn nên để ý đến, Standard Bots ”, và tôi đã tìm hiểu, và thật bất ngờ, đó là công ty do Evan Beard sáng lập!
Từ khi nối lại liên lạc, Evan đã trở thành một trong số ít người mà tôi thường hỏi những câu hỏi ngớ ngẩn về robot. Anh ấy đã từng điều trần trước Quốc hội về vấn đề robot. Năm ngoái, anh ấy đã phát biểu trên sân khấu chính tại hội nghị GTC của Nvidia. Thậm chí, anh ấy còn xuất hiện trong phim Babygirl của A24 với vai trò thu thập dữ liệu robot, đóng cùng Nicole Kidman! Evan rất am hiểu về robot.
Và những câu hỏi thật ngớ ngẩn! Lĩnh vực robot học khiến tôi e ngại. Khi giá trị định giá tăng vọt, tôi hầu như tránh viết bài hoặc đầu tư vào robot, vì tôi không cảm thấy đủ tự tin rằng mình hiểu rõ vấn đề để đưa ra quan điểm.
Đó chính là mục đích của những bài luận viết chung này!
Evan đã cống hiến sự nghiệp của mình cho một niềm tin cụ thể về cách xây dựng một công ty robot. Anh ấy đang đặt cược khác với những công ty được thổi phồng nhiều hơn trong lĩnh vực này¹ , một cách đặt cược giống như một con búp bê Nga với một siêu mẫu ở giữa - không quá gợi cảm ở bên ngoài nhưng càng bóc tách từng lớp thì càng quyến rũ hơn cho đến khi bạn đến được phần trung tâm và bạn sẽ phải thốt lên, "Trời ơi."
Vậy thì hãy bật nhạc Robot Rock lên nào…
Và chúng ta hãy bắt đầu thôi.
Chương trình "Không nhàm chán" hôm nay được tài trợ bởi… Framer
Framer mang đến cho các nhà thiết kế những khả năng siêu phàm.
Framer là trình tạo website không cần lập trình, ưu tiên thiết kế, cho phép bất kỳ ai cũng có thể tạo ra một trang web sẵn sàng hoạt động chỉ trong vài phút. Cho dù bạn bắt đầu với một mẫu có sẵn hay một trang trắng, Framer đều cung cấp cho bạn toàn quyền kiểm soát sáng tạo mà không cần lập trình. Thêm hiệu ứng động, bản địa hóa chỉ với một cú nhấp chuột và cộng tác theo thời gian thực với toàn bộ nhóm của bạn. Bạn thậm chí có thể thử nghiệm A/B và theo dõi số lượt nhấp chuột với công cụ phân tích tích hợp sẵn.
Framer đang cung cấp tháng đầu tiên sử dụng cossays miễn phí để bạn có thể trải nghiệm dịch vụ của chúng tôi. Hãy thể hiện sự ủng hộ của bạn dành cho Framer bằng cách xây dựng cho mình một thế giới trực tuyến nhỏ mà không cần thuê lập trình viên.
Chỉ cần xuất bản nó bằng Framer
Nhiều bước tiến nhỏ của robot, một bước nhảy vọt khổng lồ cho nhân loại.
Bài luận viết chung với Evan Beard
Trong ngành của tôi, có một niềm tin rằng giá trị của robot sẽ được khai thác một cách vượt bậc .
Sự tiến bộ mà những người có niềm tin này đạt được thật đáng để theo dõi. Trên mạng, bạn có thể tìm thấy các video về robot đi bộ , lộn nhào , nhảy múa , dỡ hàng tạp hóa , nấu ăn , gấp quần áo, rửa bát . Điều này giống như trong phim hoạt hình Jetsons vậy. Chiến thắng của robot dường như cuối cùng chỉ còn là một bước tiến ngắn nữa thôi. Ở phía bên kia là sự giàu có, sức mạnh và sung túc.
Kết quả là, các công ty hoạt động dựa trên quan điểm này, dù là sản xuất mô hình hay robot hoàn chỉnh, đã huy động được phần lớn trong hàng tỷ đô la vốn đầu tư mạo hiểm đổ vào lĩnh vực robot trong vài năm qua. Con số này chưa bao gồm số tiền mà Tesla đã đầu tư từ nguồn vốn của mình vào robot hình người Optimus.
Nhân các biến số này lại với nhau, phạm vi có thể rất lớn² . Điều này là do phạm vi các công việc thực tế của con người vô cùng phức tạp. Một phép thử nhanh là một người không thể làm tất cả mọi công việc của con người.
Hầu hết các công việc thực tế không hoàn toàn lặp đi lặp lại, nhưng chúng cũng không hoàn toàn không có giới hạn. Chúng có cấu trúc, ràng buộc và sự biến đổi không thể tránh khỏi, điều này khiến Frederick Winslow Taylor, Henry Ford và nhiều nhà công nghiệp sau này không hài lòng. Các bộ phận khác nhau, những chiếc hộp hơi cong, ánh sáng không ổn định, đồ đạc cũ kỹ, con người xung quanh làm những việc khó lường.
Điều đó cũng đúng với robot.
Một mặt, bạn có tính năng phát lại chuyển động . Robot di chuyển từ điểm A đến điểm B theo cùng một cách, mỗi lần đều như vậy. Không cần trí thông minh nhân tạo. Đây là cách hoạt động của phần lớn các robot công nghiệp hiện nay. Bạn lưu một vị trí, rồi một vị trí khác, rồi một vị trí khác nữa, và robot sẽ đi theo con đường đó mãi mãi. Nó giống như chức năng "ghi macro" trong Excel. Nó hoạt động rất tốt miễn là không có gì thay đổi.
Ở thái cực khác, bạn có thể thấy một nhân viên như ở McDonald's . Cứ ba phút lại phải làm ở một vị trí khác nhau. Làm bánh mì kẹp thịt, rồi khoai tây chiên, rồi đến quầy thu ngân, rồi dọn dẹp. Những công việc hoàn toàn khác nhau, trình tự không thể đoán trước, có sự tương tác giữa người với người, môi trường hỗn loạn. Ước mơ về trí tuệ nhân tạo tổng quát là một robot có thể bước vào môi trường này và chỉ cần... làm việc.
Một bên là tự động hóa. Bên kia là quyền tự chủ. Giữa hai thái cực đó là hầu hết các công việc có giá trị kinh tế.
Giữa tự động hóa và robot của McDonald's có thể thay thế hoàn toàn người lao động là một số lượng việc làm khổng lồ.
Tôi tin rằng những bước đi nhỏ trên toàn bộ phạm vi này chính là chìa khóa để chúng ta khai phá ra giá trị kinh tế to lớn hiện nay.
Đó chính là điều mà công ty Standard Bots của tôi đang đặt cược.
Standard Bots sản xuất robot tích hợp theo chiều dọc, sử dụng trí tuệ nhân tạo (AI). Hiện tại, chúng tôi đang tập trung vào khách hàng trong lĩnh vực sản xuất và logistics. Chúng tôi đã xây dựng một giải pháp toàn diện cho khách hàng để huấn luyện các mô hình AI robot, từ thu thập dữ liệu, xem xét và chú thích, đến huấn luyện và triển khai mô hình. Và chúng tôi làm cho các công cụ này đủ dễ sử dụng để người lao động sản xuất thông thường cũng có thể sử dụng được.
Trong một thị trường đầy rẫy những dự án táo bạo, chiến lược của chúng tôi có vẻ bảo thủ. Ngay cả doanh thu hàng chục triệu đô la cũng chẳng là gì so với giải thưởng cuối cùng, trị giá hàng nghìn tỷ đô la, mang lại sự thịnh vượng đang chờ đợi ở tương lai.
Không phải vậy.
Chúng tôi đang xây dựng một doanh nghiệp thực sự ngày hôm nay bởi vì chúng tôi tin rằng đó là con đường khả thi nhất để giúp chúng tôi đạt được trạng thái thịnh vượng trước tiên.
Hai chiến lược: Bước nhảy vọt khổng lồ hay bước tiến nhỏ?
Nếu bạn tin rằng có một lượng lớn các nhiệm vụ có giá trị kinh tế đang chờ đợi ở phía bên kia một ngưỡng nào đó, thì chiến lược tối ưu là đi thẳng đến đó. Tập trung nhóm của bạn vào phòng thí nghiệm. Mở rộng quy mô mô hình. Mở rộng quy mô tính toán. Đừng để bị phân tâm bởi các triển khai có thể làm chậm bạn. Hãy nhảy vọt .
Nếu bạn tin tưởng, giống như chúng tôi, rằng có một loạt các công việc có giá trị kinh tế cao, và robot có thể đảm nhiệm nhiều công việc trong số đó ngay hôm nay, thì điều tốt nhất nên làm là đưa robot vào sử dụng sớm và bắt đầu công việc.
Mỗi lần triển khai giúp bạn biết mình đang ở đâu trên thang đo hiệu quả. Thành công cho bạn thấy điều gì ổn định, thất bại cho bạn thấy mô hình bị lỗi ở đâu, và cả hai đều cho bạn biết chính xác cần phải sửa chữa điều gì tiếp theo. Bạn lặp lại . Bạn thực hiện từng bước nhỏ .
Trong các phòng thí nghiệm LLM hàng đầu, người ta đều nhất trí rằng dữ liệu là yếu tố quan trọng nhất. Chiến lược dữ liệu tối ưu là từng bước chinh phục phạm vi này, mỗi lần một trường hợp sử dụng. Bạn không cần “nhiều” dữ liệu hơn. Điều bạn thực sự cần là sự đa dạng³ , tính phù hợp với chính sách⁴ và chương trình giảng dạy⁵ . Việc từng bước chinh phục phạm vi này một cách lặp đi lặp lại là chiến lược tối ưu hóa tốt nhất cho ba khía cạnh của dữ liệu chất lượng với bất kỳ ngân sách đầu tư nào. Việc triển khai thực tế trên bot của bạn giúp bạn đạt được tính phù hợp với chính sách (không gì khác có thể làm được), thị trường tự động lựa chọn chương trình giảng dạy, và cả hai đều mang lại sự đa dạng phong phú và có ý nghĩa kinh tế.
Chúng tôi đã rút ra bài học này qua nhiều năm triển khai.
Mỗi khi robot phát triển để tích hợp thêm một khía cạnh khác của phạm vi công việc nằm giữa tự động hóa và tự chủ, nó cũng mở ra thêm một loạt công việc mới, một nhóm khách hàng mới, một phân khúc thị trường mới. Từng bước nhỏ một.
Lấy ví dụ việc vặn vít. Việc sử dụng trí tuệ nhân tạo (AI) toàn diện để tìm một con vít hoặc bu lông dễ dàng hơn nhiều so với việc cố gắng đặt mọi thứ vào một vị trí cố định đã được lên kế hoạch từ trước. Tìm kiếm và phản hồi rất tiết kiệm chi phí đối với các hệ thống học tập. Robot của chúng ta có thể di chuyển tua vít xung quanh cho đến khi nó cảm thấy rằng nó ở đúng vị trí. Nó lắc nhẹ tua vít. Nó cảm nhận được khi nào nó rơi vào rãnh. Nếu nó bị trượt, nó sẽ điều chỉnh. Và khi robot của chúng ta tìm ra cách vặn vít, nó sẽ mở khóa hàng loạt công việc liên quan đến việc vặn vít. Sau đó, chúng ta bắt đầu thực hiện những công việc đó và cũng học được những chi tiết cụ thể của từng công việc.
Chúng ta học hỏi trong quá trình làm việc và ngày càng giỏi hơn theo thời gian. Nhiều robot trong số này chưa hoàn hảo, nhưng chúng vẫn hữu ích. Không có ngưỡng nhất định nào mà bạn phải vượt qua trước khi robot trở nên hữu dụng.
Đó không phải là giả thuyết của chúng tôi. Đó là những gì thị trường đang cho chúng ta biết.
Robot công nghiệp đã là một thị trường lớn và được chứng minh hiệu quả. FANUC , nhà sản xuất cánh tay robot hàng đầu thế giới, đạt doanh thu hàng năm khoảng 6 tỷ đô la. Bộ phận robot của ABB đạt thêm 2,4 tỷ đô la vào năm 2024. Universal Robots , được Teradyne mua lại vào năm 2015, tạo ra doanh thu hàng trăm triệu đô la mỗi năm.
Những hệ thống này hoạt động được, mặc dù chúng hoạt động theo những cách rất hạn chế. Các công ty mất hàng tuần để tích hợp chúng. Các nhóm phải thuê chuyên gia để lập trình các chuỗi chuyển động phức tạp. Khi một nhiệm vụ thay đổi, những chuyên gia đó lại phải quay lại để lập trình lại toàn bộ, với một khoản phí. Robot lặp đi lặp lại các chuyển động giống nhau vô tận, và chúng chỉ hoạt động miễn là môi trường vẫn giữ nguyên như cũ.
Chúng tôi cũng có suy nghĩ tương tự về robot.
Chúng ta cũng kỳ vọng một ngày nào đó robot sẽ làm được mọi việc. Chúng ta chỉ tin rằng:
“Mọi thứ” đều được tạo thành từ một chuỗi liên tục các “thứ” nhỏ.
Khi phát hiện trường hợp ngoại lệ mới, chúng ta có thể cải tiến toàn bộ hệ thống robot biến đổi của mình. Điều này là do chúng ta được tích hợp theo chiều dọc hoàn toàn, bao gồm thu thập dữ liệu, mô hình, phần mềm nhúng và cánh tay robot vật lý.
Kế hoạch của chúng tôi là kiếm tiền bằng cách ăn toàn bộ phổ năng lượng . Trong quá trình đó, chúng tôi dự định thu thập dữ liệu mà không ai khác có thể thu thập được. Sau đó, chúng tôi sẽ sử dụng dữ liệu này, được thiết kế riêng cho robot của chúng tôi, để nhanh chóng cải tiến toàn bộ hệ thống nhằm đạt được hiệu quả kinh tế tổng thể trước khi các phương pháp tiếp cận trực tiếp, thiếu đột phá khác làm được điều đó.
Có rất nhiều yếu tố đằng sau quyết định đặt cược của chúng tôi. Điều đầu tiên và quan trọng nhất bạn cần hiểu là ngành robot đang bị tắc nghẽn về dữ liệu .
Ngành robot đang gặp tắc nghẽn về dữ liệu.
Robot hiện nay hoạt động rất tốt một cách tự động ở những nơi có nhiều dữ liệu tốt. Ví dụ, việc cắt và trồng lại các mảnh cây để nhân bản chúng như trong video dưới đây.
Điều này nghe có vẻ không trực quan, bởi vì nó gần như là thách thức ngược lại mà các Mô hình Ngôn ngữ Lớn (LLM) dường như phải đối mặt. Điều mà người dùng AI thông thường như bạn và tôi trải nghiệm là các mô hình được cải thiện và LLM tự động biết nhiều thứ hơn.
Nhưng các sinh viên chương trình LLM lại có cuộc sống tương đối dễ dàng. Toàn bộ internet đã tồn tại như một kho dữ liệu huấn luyện được xây dựng sẵn. Có nhiều thông tin trên internet hơn bạn có thể tưởng tượng. Bất kỳ câu hỏi nào bạn có thể hỏi một sinh viên LLM, internet có lẽ đã hỏi và trả lời rồi. Phần khó khăn là xây dựng các kiến trúc có thể học hỏi từ tất cả những thông tin đó.
Ngành robot lại gặp phải vấn đề ngược lại.
Các kiến trúc này về cơ bản đã tồn tại. Chúng ta đã chứng kiến những bước đột phá thực sự trong học máy robot trong vài năm qua khi các ý tưởng quan trọng từ các mô hình ngôn ngữ lớn được áp dụng vào các hệ thống vật lý. Ví dụ, Chính sách Khuếch tán của Viện Nghiên cứu Toyota cho thấy rằng việc coi các chính sách điều khiển robot như các mô hình tạo sinh có thể cải thiện đáng kể tốc độ học các kỹ năng thao tác khéo léo của robot. Điều kỳ diệu của phương pháp này là nó đã sử dụng kiến trúc chủ yếu được dùng để tạo ra hình ảnh, trong đó mô hình học cách loại bỏ nhiễu một cách lặp đi lặp lại như trong ảnh GIF bên dưới…
Các mô hình thị giác-ngôn ngữ-hành động như RT-2 kết hợp khả năng hiểu ngữ nghĩa quy mô web với dữ liệu robot để chuyển đổi các chỉ dẫn cấp cao thành các hành động vật lý. Các hệ thống như ALOHA Unleashed chứng minh rằng học tập bắt chước dựa trên Transformer có thể cho phép robot thực xử lý các nhiệm vụ phức tạp, nhiều giai đoạn — bao gồm buộc dây giày và phân loại đồ vật — bằng cách quan sát các bài trình diễn. Và các mô hình nền tảng dựa trên khuếch tán mới nổi như RDT-1B cho thấy rằng việc huấn luyện trên các tập dữ liệu robot lớn, đa dạng cho phép khái quát hóa không cần huấn luyện và học tập ít cần huấn luyện trên nhiều hình thái khác nhau.
Nhưng tất cả các nghiên cứu đó đều tìm ra một điều tương tự. Để những đổi mới đáng kể đó xảy ra với tỷ lệ thành công hợp lý, bạn cần dữ liệu về robot cụ thể của mình, thực hiện nhiệm vụ cụ thể của mình, trong môi trường cụ thể của mình.
Nếu bạn huấn luyện một robot gấp áo sơ mi và sau đó yêu cầu nó gấp một chiếc áo, nó sẽ làm được. Đặt những chiếc áo vào các môi trường khác nhau, trên các bàn khác nhau, dưới ánh sáng khác nhau. Nó vẫn làm được. Mô hình đã học được cách khái quát hóa trong phạm vi phân bố của "gấp áo sơ mi". Nhưng sau đó hãy thử yêu cầu nó treo áo khoác, xếp khăn tắm hoặc làm bất cứ điều gì khác biệt đáng kể so với gấp áo sơ mi. Nó sẽ thất bại. Nó không phải là ngu ngốc. Chỉ là nó chưa bao giờ thấy ai làm những việc đó mà thôi.
Vậy làm thế nào để thu thập dữ liệu ví dụ?
Ví dụ, Skild đã chứng minh rằng một robot có thể học cách thực hiện một số công việc nhà thông thường từ video và chỉ cần một giờ dữ liệu hoạt động của robot cho mỗi công việc.
Đây là một bước tiến đáng mừng, và ngay trong tuần này, Skild đã công bố vòng gọi vốn Series C trị giá 1,4 tỷ đô la do Softbank dẫn đầu, với mức định giá hơn 14 tỷ đô la.
Tóm lại, video tổng quát có thể nâng cao khả năng ban đầu của một mô hình. Nhưng nó vẫn không loại bỏ được nhu cầu về dữ liệu trên robot để xây dựng chính sách cuối cùng, ngay cả đối với các tác vụ đơn giản như nhặt và đặt đồ vật trong gia đình (và các tác vụ công nghiệp sẽ cần nhiều dữ liệu hơn). Thứ nhất, robot cần dữ liệu 3D, bao gồm mô-men xoắn và lực, và dữ liệu cần được ghi nhận theo thời gian. Chúng gần như cần cảm nhận được các chuyển động. Video không có dữ liệu này và văn bản chắc chắn không có.
Nó giống như việc đọc nhiều sách giúp viết được một cuốn sách hay hơn, nhưng xem nhiều video về golf lại không giúp ích gì nhiều cho việc chơi golf thực tế.
Nếu tôi muốn học chơi golf, tôi cần phải thực sự ra ngoài và dùng cơ thể để vung gậy. Tương tự như vậy,
Cách tốt nhất để thu thập dữ liệu là sử dụng phần cứng . Và để làm điều đó, có một số phương pháp thu thập khác nhau: cánh tay robot kiểu dẫn dắt-theo dõi, thiết bị cầm tay có cảm biến, găng tay và thiết bị đeo được, thực tế ảo (VR) và điều khiển từ xa, và thao tác trực tiếp, tức là di chuyển cánh tay và nắm lấy một vật thể.
Tất cả các phương pháp này đều có thể hiệu quả. Mỗi phương pháp đều có ưu điểm và nhược điểm riêng. Chúng tôi sử dụng kết hợp nhiều phương pháp khác nhau.
Nhưng hãy tiếp tục với ví dụ về golf. Tập luyện với bất kỳ cơ thể người nào cũng tốt hơn là xem video, nhưng tập luyện với chính cơ thể mình là tốt nhất. Đó là cơ thể mà tôi sẽ thực sự sử dụng để chơi.
Tương tự, ngay cả dữ liệu từ các robot khác cũng không có giá trị bằng dữ liệu từ phần cứng của chính bạn. Nếu dữ liệu và phần cứng của bạn không đồng bộ, bạn cần lượng dữ liệu gấp 100 hoặc 1000 lần. Nếu tôi muốn nghiên cứu robot của mình nhưng lại không có robot đó, tôi có thể sử dụng một robot tương tự để quan sát hoạt động của nó. Nhưng để đạt hiệu quả, tôi cần rất nhiều robot tương tự.
Đây là một trong nhiều thách thức đối với các mô hình robot nói chung.
Bước nhảy vọt khổng lồ thực sự đòi hỏi điều gì?
Lý lẽ phản bác rõ ràng nhất đối với tất cả những gì tôi đã lập luận cho đến nay và sẽ tiếp tục lập luận trong suốt bài viết này là, mặc dù các mô hình Giant Leap chưa thực sự hữu ích trong thế giới thực, nhưng chắc chắn chúng sẽ làm được điều đó khi các phòng thí nghiệm tiếp tục đạt được những đột phá. Thiếu phép thuật thì chẳng vui vẻ gì!
Tuy nhiên, với số tiền khổng lồ được đầu tư vào lĩnh vực này, điều đáng ngạc nhiên là công chúng lại có rất ít suy nghĩ thấu đáo về ý nghĩa thực sự của phương pháp "Bước nhảy vọt khổng lồ".
Họ đang đặt cược gì, hoặc một loạt các cược gì, và chúng ta nên suy luận về chúng như thế nào?
Phương pháp mà chúng tôi đang áp dụng tại Standard Bots rất khó khăn. Nó thường chậm và gây nản lòng. Và từ bên ngoài, có một rủi ro rất lớn là chúng tôi làm tất cả công việc này rồi một ngày nào đó thức dậy và một trong những phòng thí nghiệm lớn đã… tìm ra lời giải. Nhưng tôi tự tin vào phương pháp của mình vì tôi không nghĩ rằng các quan điểm “Bước nhảy vọt khổng lồ” sẽ tạo ra những đột phá có ý nghĩa, và tôi muốn giải thích lý do tại sao.
Chắc chắn rồi, bạn sẽ tiếp tục thấy những lời chào mời ngày càng kỳ diệu hơn trên Twitter của robot:
“Chúng ta có thể huấn luyện bằng video trên YouTube. Không cần dữ liệu robot!”
“Chúng ta có thể tạo ra dữ liệu còn thiếu trong quá trình mô phỏng!”
“Chúng ta đang xây dựng một mô hình toàn cầu. Robot không cần lập trình là điều tất yếu!”
Và một số trong số đó thậm chí còn đúng hướng. Có những tiến bộ thực sự đằng sau nhiều lời bàn tán. Nhưng cũng có rất nhiều sự ồn ào.
Tôi xin nhắc lại, tôi có thành kiến ở đây. Nhưng tôi cũng đang đầu tư thời gian và tiền bạc vào thành kiến đó. Vì vậy, đây là cách tôi nghĩ về những gì thực sự đang diễn ra — những gì Google, Trí tuệ Vật lý (Pi hoặc π) và Skild đang thực sự làm trong phòng thí nghiệm để theo đuổi một bước đột phá thực sự — từ (đừng nói ra, đừng nói ra) những nguyên tắc cơ bản.
Mô hình bắt đầu những bước đi đầu tiên
Rất nhiều tiến bộ trong lĩnh vực robot-AI hiện đại bắt đầu theo cùng một cách: huấn luyện trước khả năng nhận thức, học các hành động từ đầu . Nghĩa là, dạy robot cách nhận thức và để nó học bằng cách nhận thức.
Hãy xem xét Chính sách Phổ biến của Viện Nghiên cứu Toyota. Bộ mã hóa hình ảnh (phần chuyển đổi pixel thành định dạng mà mô hình có thể sử dụng) được huấn luyện trước trên các hình ảnh quy mô internet, nhưng mô hình hành động lại bắt đầu gần như trống rỗng.
Việc bắt đầu "trống rỗng" là... không lý tưởng, bởi vì mô hình chưa có cái mà các nhà nghiên cứu gọi là nền tảng nhận thức-hành động . Nó chưa học được mối quan hệ chặt chẽ giữa những gì nó nhìn thấy và những gì nó làm:
"Di chuyển sang trái" trong không gian máy quay nên có nghĩa là di chuyển sang trái trong thế giới thực.
Dụng cụ kẹp hai ngón tay có thể kẹp cốc ở quai hoặc vành cốc, nhưng không thể dùng ngón tay chọc vào giữa cốc như trẻ nhỏ đang cố ăn súp bằng nĩa.
Sự tiếp xúc là vật lý, không chỉ đơn thuần là hình học. Thế giới thay đổi khi bạn tương tác với nó.
Giai đoạn định hướng này về cơ bản giống như giai đoạn của trẻ mới biết đi: Tôi nhìn thế giới, tôi vùng vẫy với thế giới, đôi khi tôi thành công, phần lớn là tôi tự đập vào mình.
Nhưng hầu hết các đội nghiêm túc đều có thể thu thập đủ dữ liệu về robot để thiết lập nền tảng cơ bản trong vài ngày. Cho đến nay, mọi việc đều tốt đẹp.
Cách huấn luyện robot
Giả sử bạn muốn huấn luyện một robot thực hiện một nhiệm vụ. Đây là những gì bạn cần làm:
1. Thu thập dữ liệu
2. Mô hình tàu hỏa
3. Đánh giá và cải tiến liên tục
Thu thập dữ liệu : Bạn có thể điều khiển từ xa trong phòng thí nghiệm, thế giới thực, mô phỏng, hoặc học hỏi từ internet hay video được tạo ra. Mỗi lựa chọn đều có những ưu nhược điểm riêng, và các công ty robot dành rất nhiều thời gian để suy nghĩ và thử nghiệm về những ưu nhược điểm này.
Huấn luyện mô hình : Bạn sẽ xây dựng mô hình từ đầu hay dựa vào mô hình đã được huấn luyện trước đó để khởi tạo? Việc huấn luyện từ đầu sẽ dễ dàng hơn nếu bạn đang xây dựng một mô hình nhỏ . Các mô hình lớn thường có toàn bộ quy trình và công thức huấn luyện bao gồm các giai đoạn tiền huấn luyện, huấn luyện trong quá trình và hậu huấn luyện. Tiền huấn luyện dạy cho robot những kiến thức cơ bản về cách thế giới vận hành (vật lý tổng quát, chuyển động, ánh sáng). Hậu huấn luyện là về việc cung cấp cho các nhiệm vụ những khả năng cụ thể.
Theo thuật ngữ LLM, huấn luyện trước (pre-training) dạy mô hình cách các từ có mối liên hệ với nhau trong phân phối dữ liệu huấn luyện. Nó học được các biểu diễn tiềm ẩn của chúng. Huấn luyện sau (post-training, instructGPT, RLHF, Codex) giúp mô hình sẵn sàng cho các trường hợp sử dụng triển khai như trợ lý trò chuyện hoặc lập trình. Huấn luyện sau cũng có thể làm cho robot nhanh hơn, rẻ hơn và chính xác hơn bằng cách tối ưu hóa quỹ đạo bằng học tăng cường (RL). Phần lớn những thảo luận về RL mà bạn nghe thấy trong thế giới LLM thực chất bắt đầu từ các chính sách cụ thể cho từng nhiệm vụ của robot.
Nghe có vẻ tuyệt vời, nhưng bạn vẫn cần dữ liệu. Câu hỏi lớn là: làm thế nào để thu thập dữ liệu?
Những giấc mơ video (và giới hạn của chúng)
Những người tiên phong trong lĩnh vực này có hai phương án cứu cánh quan trọng để thu thập dữ liệu mà họ cần.
Thứ nhất là video có sẵn trên toàn bộ internet .
Rõ ràng là các mô hình học được điều gì đó từ video: tính bền vững của vật thể, hình học thô sơ, cấu trúc vật lý tiềm ẩn, khả năng ảo giác về mặt sau của các vật thể mà chúng chưa từng thấy (điều này có thể rất thú vị hoặc vô cùng đáng lo ngại, tùy thuộc vào mối quan hệ của bạn với thực tế).
Vậy tại sao không thử xem YouTube, tìm hiểu về thế giới, rồi sau đó... làm robot?
Hãy suy nghĩ về điều này trước tiên. Con người có thể học được gì từ việc xem video? Và họ không thể học được gì?
Video rất hữu ích cho nhiều mục đích:
Quỹ đạo và trình tự : Video rất hiệu quả trong việc thể hiện quỹ đạo chuyển động và trình tự các bước trong một hành động.
Khả năng sử dụng và mục tiêu : Bạn quan sát ai đó xoay một cái núm và bạn nhận ra rằng núm muốn được xoay. Công tắc muốn được nhấn.
Thời gian và nhịp điệu : Thời gian rất quan trọng đối với những việc như di chuyển, lắp ráp, hoặc bất cứ thứ gì về cơ bản là sự sắp đặt. Video mang yếu tố thời gian.
Nếu bạn đang học cách cầm nắm, video có thể hướng dẫn bạn: vươn tới → hạ xuống → khép các ngón tay → nâng lên.
Và nó có thể thể hiện cách sử dụng công cụ : độ nghiêng của một chiếc cốc, cú vung búa, cách mọi người "gian lận" bằng cách trượt đồ vật thay vì nhấc chúng lên.
Nhưng có cả những loại dữ liệu mà video không thể truyền tải được: khối lượng, lực, độ đàn hồi, ma sát, độ cứng, động lực tiếp xúc.
Con người đôi khi có thể suy luận được một số điều này bằng thị giác, nhưng chỉ vì chúng ta dựa vào kinh nghiệm sống tích lũy suốt đời. Robot thì không có kinh nghiệm đó.
Trong các thí nghiệm với hơn 2.200 người tham gia, các nhà nghiên cứu Michael Kardas và Ed O'Brien đã xem xét điều gì xảy ra khi mọi người xem các video hướng dẫn để học các kỹ năng thể chất như đi bộ trên mặt trăng, tung hứng và ném phi tiêu. Kết quả thật đáng kinh ngạc:
Tôi sắp nói một điều hơi "cay" một chút đấy.
Nếu không để ý kỹ, có vẻ như việc cho robot xem video trên internet đang có hiệu quả.
Hãy xem kỹ các video minh họa "học bằng cách quan sát" của Skild . Chỉ những tác vụ đơn giản nhất mới sử dụng "một giờ dữ liệu từ con người". Những video minh họa ấn tượng hơn được lồng ghép ở giữa video mà không có nhãn đó. Và các video này cũng không phải là những video ngẫu nhiên được lấy từ YouTube. Chúng là những đoạn ghi hình góc nhìn thứ nhất được thu thập cẩn thận từ camera gắn trên đầu. Liệu việc làm tất cả những điều này có dễ dàng hơn nhiều so với việc chỉ sử dụng robot?
Tóm lại, có ba lý do chính khiến video không đủ:
Phạm vi phủ sóng: Video trên internet không thể bao quát hết thực tế kỳ lạ, hạn chế và đầy thách thức của môi trường công nghiệp.
Hiệu quả dữ liệu: việc học chỉ từ video thường đòi hỏi lượng dữ liệu lớn hơn nhiều lần so với việc học từ dữ liệu do robot thu thập, bởi vì việc ánh xạ từ pixel sang hành động bị hạn chế nếu không có khả năng cảm nhận dựa trên hình thể.
Các lực bị thiếu: hai bề mặt có thể trông giống hệt nhau nhưng lại có hành vi hoàn toàn khác nhau. Video không thể phân biệt được ma sát. Robot tìm ra điều đó theo cách thú vị.
Sau đó, bạn vẫn gặp phải vấn đề về chuyển đổi: bàn tay người không phải là bộ phận kẹp của robot, động học khác nhau, tỷ lệ khác nhau, độ đàn hồi khác nhau, sai số hệ thống sẽ xuất hiện trừ khi bạn luyện tập với chính xác bộ phận cuối cùng mà bạn sẽ sử dụng.
Đó là lý do tại sao nhiều công ty cuối cùng lại âm thầm quay trở lại hình thức điều hành từ xa.
Video quay cảnh con người rất hữu ích cho việc huấn luyện trước. Nhưng dữ liệu thiếu độ tin cậy sẽ gây ra tổn thất thực sự: bạn có thể phải bỏ công sức leo lên đỉnh đồi, hoặc bạn có thể đi lạc hướng rất lâu và gọi đó là tiến bộ.
Được rồi, vậy thì các video trên YouTube không hữu ích lắm. Còn phương pháp mô phỏng thì sao?
Mô hình thế giới hoạt động hiệu quả ở những trường hợp nào và không hiệu quả ở những trường hợp nào.
Mô phỏng và học tăng cường (RL) là một giải pháp cứu cánh lớn khác. Nếu robot có thể tự chơi trong môi trường mô phỏng bắt chước các định luật vật lý của thế giới thực, thì thuật toán đã được huấn luyện sẽ có thể áp dụng cho robot thực trong thế giới thực. Và công bằng mà nói: mô phỏng hiện đang rất tốt ở một số khía cạnh, đặc biệt là động lực học vật thể rắn .
NVIDIA đã nỗ lực rất nhiều trong việc phát triển khả năng di chuyển. Tác phẩm của Disney (được giới thiệu trong bài phát biểu quan trọng của Jensen tại GTC 2025) cho thấy điều kỳ diệu khi kết hợp vật lý tốt với khả năng điều khiển tốt: những người máy hình người có thể đi bộ, lật người, phục hồi (một cách đẹp mắt) trong môi trường mô phỏng.
Thành công đó đến từ hai yếu tố:
Các định luật vật lý trong trường hợp này khá dễ xử lý: Trình mô phỏng có thể xử lý tốt các vật thể rắn + va chạm + trọng lực. Bạn có thể ngẫu nhiên hóa địa hình, tạo ra chướng ngại vật và huấn luyện các thuật toán di chuyển mạnh mẽ mà không cần tác động đến thế giới thực.
Mục tiêu có thể xác định rõ: Học tăng cường cần có phần thưởng.
Đối với việc đi bộ, những lợi ích rất rõ ràng: quãng đường đã đi, sự ổn định, lượng năng lượng tiêu hao, tốc độ.
Đối với hoạt hình, cách làm thậm chí còn đơn giản hơn: khớp chuyển động tham chiếu mà không bị rơi.
Vậy nên, chuyển động là lĩnh vực lý tưởng vì ba yếu tố sau đây hội tụ đầy đủ cho học máy: bạn có thể mô phỏng vật lý, đo lường mục tiêu và thiết lập lại miễn phí khi mọi thứ không suôn sẻ.
Sau đó, người ta cố gắng suy luận từ việc đi bộ sang làm việc trong nhà máy, và mọi thứ đều đổ vỡ.
Khi bạn thực hiện các công việc thực tế trong thế giới thực, vật lý trở nên phức tạp hơn. Các nhiệm vụ thực tế liên quan đến vật liệu mềm, bao bì biến dạng, chất lỏng, định tuyến cáp, ma sát phụ thuộc vào sự mài mòn, dung sai chặt chẽ và kết quả chủ yếu phụ thuộc vào tiếp xúc.
Bạn có thể mô phỏng một số phần của việc này, nhưng thực hiện một cách toàn diện và chính xác sẽ trở thành một nỗ lực thủ công khổng lồ. Và bạn vẫn không thể bao quát được các trường hợp ngoại lệ mà bạn gặp trong thực tế. Tóm lại, tốt hơn hết là bạn nên làm thử nghiệm thực tế.
Với các nhiệm vụ thực tế, phần thưởng trở nên khó xác định hoặc không thể viết ra được . "Làm một chiếc bánh sandwich" không phải là một nhiệm vụ có thể đo lường được. Ngay cả "đặt bộ phận này xuống" cũng đầy rẫy những ràng buộc: đừng làm rách, đừng làm đổ, phải căn chỉnh, phải lấy lại nếu bị trượt, đừng làm kẹt, đừng làm trầy xước bề mặt, đừng làm điều mà trong mô phỏng thì được nhưng lại làm hỏng máy trong thực tế.
Waymo là một ví dụ tuyệt vời. Hiện nay Waymo sử dụng rất nhiều mô phỏng, nhưng việc thu thập dữ liệu thực tế từ con người lái xe đã có từ rất lâu trước khi mô hình thế giới được tạo ra. Bạn có nhớ các nhân viên của Google đã lái những chiếc xe trông ngớ ngẩn đó để thu thập dữ liệu trong bao lâu trước khi Waymo thực hiện chuyến đi tự lái đầu tiên không? Như công ty đã viết trong mộtbài đăng trên blog gần đây , “ Đơn giản là không có gì có thể thay thế được khối lượng kinh nghiệm lái xe tự động thực tế này — không có bất kỳ mô phỏng nào, việc thu thập dữ liệu do người lái điều khiển thủ công, hay các hoạt động với người lái thử nghiệm nào có thể tái tạo được toàn bộ các tình huống và phản ứng mà Waymo Driver gặp phải khi nó hoàn toàn tự điều khiển. ”
Bạn cần thu thập dữ liệu đó trong thế giới thực, sau đó bạn có thể phát lại và khuếch đại nó trong mô phỏng. Đó là cách bạn có được những điểm "chín" cuối cùng.
Ngoài ra, còn có việc thiết lập lại. Những gì cần thiết để bắt đầu lại từ đầu.
Trong mô phỏng, việc thiết lập lại là miễn phí. Trong thực tế, việc thiết lập lại tốn công sức. Đi bộ là trường hợp ngoại lệ hiếm hoi vì thao tác thiết lập lại chỉ là "đứng dậy", nhưng nếu bạn muốn một robot học cách làm bánh mì kẹp thông qua thử và sai, thì ai đó phải: dọn dẹp, bổ sung nguyên liệu, thiết lập lại, thử lại và lặp đi lặp lại mãi mãi, dần dần mất đi ý chí sống. Dọn dẹp sau một con robot chưa hoàn thiện không phải là lý do bạn đăng ký trở thành nhà nghiên cứu robot.
Vì vậy, mô phỏng rất có giá trị, nhưng nó vẫn không thể thay thế việc thu thập dữ liệu thực tế. Việc sử dụng mô phỏng hiệu quả nhất là sau khi triển khai: khi robot thực tế gặp phải các lỗi thực sự, và mô phỏng được sử dụng để tái tạo và nhân rộng những trường hợp hiếm gặp đó.
Điều này đưa chúng ta trở lại với những nguyên tắc cơ bản.
Vậy đâu là cách tốt nhất để huấn luyện robot? (Giống như cách bạn huấn luyện con người)
Hãy nghĩ về cách bạn huấn luyện một con người.
Đối với những công việc đơn giản, văn bản là đủ. Đối với những công việc khó hơn một chút, danh sách kiểm tra sẽ hữu ích. Nhưng hầu hết công việc thực tế trong nhà máy không đơn giản như vậy. Bạn cần sự phối hợp, thời gian, khả năng phán đoán, khả năng phục hồi và khả năng xử lý "những sự cố bất ngờ xảy ra".
Đến lúc đó, minh họa sẽ thắng thế. Đó là cách truyền đạt ý định hiệu quả nhất. Đó là lý do tại sao những người làm trong các ngành nghề thủ công lại trở thành người học việc.
Điều này cũng đúng với robot. Và việc robot mất vài phút hoặc thậm chí vài giờ để học một nhiệm vụ là hoàn toàn bình thường, miễn là tín hiệu học tập có chất lượng cao.
Thời gian huấn luyện không nhất thiết phải bằng không.
Điều này dẫn đến điều chúng ta vẫn luôn nói: bước nhảy vọt khổng lồ không phải, và không thể nào là, mang tính kiến trúc .
Bước nhảy vọt khổng lồ, thời điểm mà mô hình đột nhiên nhìn thấy đủ và có thể làm bất cứ điều gì, không có thật. Nó hấp dẫn và quyến rũ (có lẽ một phần vì nó luôn nằm ngoài tầm với). Nhưng nó không tồn tại. Ngay cả những người thông minh nhất cũng cần được đào tạo và hướng dẫn. Terence Tao cần nhiều năm để trở thành một thợ hàn chuyên nghiệp.
Chúng tôi cho rằng câu trả lời đơn giản chỉ là dành thời gian để thu thập dữ liệu phù hợp. Dữ liệu cụ thể cho từng robot, cụ thể cho từng nhiệm vụ, có độ chính xác cao, ngay cả khi điều đó có nghĩa là ít bản demo trực tuyến hào nhoáng hơn.
Từ đó suy ra ba điều:
Bạn sẽ luôn cần dữ liệu dành riêng cho robot.
Cách hiệu quả nhất để truyền đạt một nhiệm vụ là thể hiện nó (điều khiển từ x














