Tại một nhà máy may mặc ở Ấn Độ, công nhân vẫn đang phân loại vải như thường lệ, nhưng lần, họ được trang bị camera phía trên đầu để ghi lại video góc nhìn thứ nhất về quá trình làm việc của mình.
Những video này sẽ được xử lý thành dữ liệu tài sản bán cho các công ty trí tuệ nhân tạo cần lượng lớn dữ liệu lớn để huấn luyện robot.
Bắt đầu từ năm nay, các doanh nghiệp tương tự đang nhanh chóng hình thành một Chuỗi công nghiệp mới, và sự trỗi dậy của Chuỗi công nghiệp này xuất phát từ trở ngại lớn nhất mà ngành công nghiệp trí tuệ thể hiện đang gặp phải: dữ liệu.
"Nhu cầu rõ ràng đã tăng lên trong năm nay," một người trong ngành tham gia thu thập dữ liệu robot nói với Radio 42. Các công ty robot châu Âu và Mỹ mà đội ngũ của ông phục vụ đang mua lượng lớn dữ liệu về công việc của con người. Hiện tại, đội ngũ có gần 100 người thu thập dữ liệu tham gia vào việc sản xuất dữ liệu huấn luyện robot, liên tục tạo ra hàng nghìn giờ dữ liệu video góc nhìn người thứ nhất mỗi tháng.
Người thu thập dữ liệu cần tuân theo các quy trình tiêu chuẩn để hoàn thành nhiệm vụ như dọn dẹp quần áo, sắp xếp nhà bếp và lấy đồ vật. Trong quá trình này, họ đeo camera gắn trên đầu, và một số nhiệm vụ yêu cầu sử dụng găng tay thu dữ liệu để ghi lại chuyển động tay chính xác hơn.
"Trước đây, ngành công nghiệp này chỉ tập trung vào mô hình và phần cứng, nhưng giờ đây ngày càng nhiều người đặt câu hỏi: 'Liệu dữ liệu có thể được cung cấp một cách ổn định?'"
Mọi người bắt đầu nhận ra rõ ràng rằng vấn đề lớn nhất là quy mô dữ liệu không đủ, điều này đã ngăn cản mô hình đạt được bước đột phá.
Với khoảng trống dữ liệu khổng lồ trong các mô hình thể hiện qua hành động, một ngành kinh doanh thu thập dữ liệu mới đang nhanh chóng nổi lên.
Tại sao robot lại bắt đầu thiếu dữ liệu?
Nếu quay ngược thời gian ba năm trước, robot giống với các ngành công nghiệp tự động hóa truyền thống hơn.
Hầu hết robot đều đứng yên trong các nhà máy, với quy trình làm việc được cấu trúc chặt chẽ: hàn, xử lý, sơn và lắp ráp. Chúng không cần phải hiểu hoàn cảnh phức tạp hoặc học các khả năng khái quát hóa; chúng chỉ cần lặp lại các hành động trong các quỹ đạo đã được xác định trước.
Hiện nay, nhiều công ty không còn hướng đến việc tạo ra các robot công nghiệp truyền thống nữa. Từ Tesla và Figure đến PI, ngành công nghiệp đang cố gắng huấn luyện robot giống như các mô hình lớn, trang bị cho chúng khả năng thực hiện nhiều nhiệm vụ cùng lúc.
Do đó, con đường mà các mô hình thể hiện đang đi ngày càng giống với con đường của các mô hình ngôn ngữ lớn (LLM), ngoại trừ việc con đường mà các mô hình thể hiện đi khó khăn hơn so với LLM, đặc biệt là trong lĩnh vực dữ liệu.
Đối với LLM (Learning Learning Module), internet tự nó là một mỏ vàng dữ liệu. Các trang web, sách, bài báo, kho mã nguồn, v.v. được tích lũy qua nhiều thập kỷ tạo thành một lượng dữ liệu huấn luyện khổng lồ. Các công ty xây dựng mô hình thường chỉ cần giải quyết vấn đề lọc và làm sạch dữ liệu, và hiếm khi cần tạo dữ liệu từ đầu.
Nhưng các mô hình hiện thân thì khác; chúng đối diện thế giới vật lý, một vùng đất hoang tàn dữ liệu. Dữ liệu chuyển động của robot không tự nhiên mà có. Mặc dù có rất nhiều video về con người làm việc trên internet, nhưng lượng dữ liệu vẫn không đủ cho robot, và chất lượng tổng thể vẫn chưa đủ cao.
Nếu như ngành luật (LLM) ra đời trong thư viện, thì ngành robot học lại giống như được sinh ra ở sa mạc.
Do đó, trong khi trí tuệ nhân tạo đã bước vào giai đoạn cạnh tranh về tỷ lệ băm và tối ưu hóa khả năng suy luận, ngành công nghiệp trí tuệ thể hiện vẫn đang mắc kẹt trong câu hỏi cơ bản nhất: dữ liệu đến từ đâu?
Đây là lý do tại sao, ngay cả với các kiến trúc mô hình ngày càng phức tạp, robot vẫn còn một chặng đường dài trước khi thực sự được ứng dụng vào nhà ở và các tình huống phức tạp.
Vì mô hình thiếu kinh nghiệm thực tế cần thiết.
Trước đó, người sáng lập Figure, Brett Adcock, đã đưa ra một quan điểm rất thẳng thắn: "Nếu chúng ta có thể búng tay và nhồi nhét tất cả lượng dữ liệu khổng lồ mà chúng ta thực sự cần vào mô hình Helix, chúng ta có thể ngay lập tức giải quyết được vấn đề về robot đa năng."
Vấn đề là, dữ liệu đến từ đâu?
Dữ liệu trong một giờ được tạo ra như thế nào?
Vào tháng Hai năm nay, một phát hiện nghiên cứu đã bắt đầu gây xôn xao trong ngành.
Đội ngũ của NVIDIA đã phát hành EgoScale, một công cụ được huấn luyện trước hơn 20.000 giờ bằng các mô hình sử dụng video góc nhìn người thứ nhất có chú thích chuyển động, và được tinh chỉnh thêm với một lượng nhỏ dữ liệu robot, cho phép bàn tay khéo léo 22 bậc tự do Sharpa Wave thực hiện nhiệm vụ như vặn nắp chai và gấp quần áo.

Quan trọng hơn, nghiên cứu cho thấy rằng khi quy mô dữ liệu con người tăng lên, hiệu suất của mô hình liên tục được cải thiện và sự cải thiện này có thể dự đoán được.
Nghiên cứu này rất quan trọng đối với ngành công nghiệp robot, bởi vì việc mở rộng quy mô dữ liệu đồng nghĩa với việc tăng trưởng khả năng của robot có tiềm năng bước vào một chu kỳ tích cực "càng nhiều dữ liệu, càng nhiều khả năng", giống như các mô hình lớn.
Từ lâu, ngành công nghệ mô phỏng đã bị ám ảnh bởi một nỗi lo lắng: ngay cả khi tăng cường đầu tư, sự cải thiện về khả năng của mô hình vẫn rất khó dự đoán. Điều này là do dữ liệu thực tế khan hiếm và quá đắt đỏ, khiến nhiều người ngần ngại đầu tư mạnh vào phân tích dữ liệu.
Nhưng EgoScale đã chứng minh được một điều ở một mức độ nào đó: ít nhất là với dữ liệu góc nhìn người thứ nhất (Dữ liệu Cái tôi), việc mở rộng quy mô thực sự có thể mang lại lợi nhuận ổn định cho khả năng thao tác khéo léo.

Đồng thời, ngày càng nhiều công ty robot đang hướng tới việc sử dụng lượng lớn dữ liệu từ con người kết hợp với một lượng nhỏ dữ liệu từ robot.
Các video quay từ góc nhìn người thứ nhất có nhiệm vụ hướng dẫn mô hình cách hoàn thành nhiệm vụ, trong khi dữ liệu robot có nhiệm vụ dạy mô hình những gì cơ thể của nó nên làm.
Do đó, giá trị chính của Ego Data nằm ở chỗ nó là một loại kiến thức tiên nghiệm dễ mở rộng, cho phép robot hiểu thế giới vật lý trước, sau đó hoàn thành quá trình thích nghi với một lượng nhỏ dữ liệu máy thực tế.
Do đó, Chuỗi công nghiệp mới xoay quanh Ego Data cũng bắt đầu tăng tốc đáng kể trong năm nay.
Người tham gia đeo camera trên đầu hoặc ngực và thực hiện nhiệm vụ cụ thể, chẳng hạn như sắp xếp quần áo, dọn dẹp nhà bếp hoặc phân loại bưu kiện. Camera ghi lại video từ góc nhìn người thứ nhất về quá trình làm việc của người đó.
Theo một nghĩa nào đó, con người là những robot đa năng tinh vi nhất trên thế giới. Khi bước vào bếp, một người sẽ tự nhiên đánh giá xem nên đặt cái gì vào trước và cái gì vào sau, và nếu không đủ chỗ, họ sẽ dùng tay kia. Khi xử lý những vật dễ vỡ, họ sẽ vô thức điều chỉnh lực tác dụng.
Đằng sau những hành động tưởng chừng như bản năng này là lượng lớn sự hiểu biết về không gian, lập kế hoạch nhiệm vụ và logic tương tác với các đối tượng.
Trước đây, robot hầu như chưa bao giờ có được kinh nghiệm kiểu này một cách có hệ thống.

Tuy nhiên, Ego Data không chỉ quay video một cách ngẫu nhiên, và việc quay đủ số lượng video không phải là thách thức lớn nhất. Vấn đề mấu chốt là làm thế nào để biến những trải nghiệm này thành một sản phẩm dữ liệu có thể thực sự được mô hình sử dụng.
Một người hành nghề đã bắt đầu đẩy nhanh việc triển khai Ego Dữ liệu trong năm nay, chia sẻ với Radio 42 rằng quá trình thu thập dữ liệu thực tế thường bắt đầu bằng một tài liệu mô tả nhiệm vụ do khách hàng gửi đến.
Những loại tài liệu này không chỉ đơn thuần ghi "thu thập dữ liệu về việc sắp xếp nhà bếp"; chúng thường bao gồm các hướng dẫn rõ ràng:
Loại nhiệm vụ là gì? Cả hai tay có cần phải nằm hoàn toàn trong khung hình không? Máy ảnh cần được đặt ở vị trí đầu hay ngực? Có được phép gián đoạn hành động không? Cần bao nhiêu biến thể hoàn cảnh? Có cần mẫu lỗi không? Định dạng sản phẩm cuối cùng có cần tương thích với khung đào tạo không?
Ví dụ, khi dọn dẹp nhà bếp, khách hàng có thể yêu cầu quy trình bao gồm nhiều bước theo trình tự liên tục, chẳng hạn như mở cửa tủ, tìm đồ đựng, dọn dẹp, lấy và cất đồ, và đóng cửa, mà không được bỏ qua bất kỳ bước nào hoặc gặp trở ngại đáng kể.
Ở một khía cạnh nào đó, nó giống như sản xuất một sản phẩm công nghiệp, và toàn bộ quy trình tại điểm thu gom "mang tính nhà máy" hơn nhiều so với tưởng tượng.
Tại một số trung tâm thu thập dữ liệu, các nhân viên thu thập dữ liệu thay phiên nhau vào khu bếp đã được chuẩn bị sẵn, phòng thay đồ và khu vực kệ để thực hiện lặp đi lặp lại nhiệm vụ theo một quy trình vận hành tiêu chuẩn (SOP) thống nhất.
Một số người chịu trách nhiệm sắp xếp quần áo, một số khác thì luyện tập việc liên tục lấy những món đồ có kích cỡ khác nhau, và những người khác thì thu thập dữ liệu về việc sắp xếp và di chuyển đồ đạc trong nhà bếp.
Cùng một thao tác thường cần được lặp đi lặp lại bởi những người có chiều cao khác nhau, tay thuận khác nhau và thói quen vận hành khác nhau, nhằm mục đích khai thác tối đa mọi tình huống có thể xảy ra trong thế giới vật lý. Xét cho cùng, robot phải đối diện một thế giới thực phức tạp, chứ không phải một câu trả lời tiêu chuẩn duy nhất.
Khi đặt cốc vào tủ, một số người dọn chỗ trước, một số đổi tay, và một số có thói quen mở cửa tủ trước. Những khác biệt nhỏ này chính là một phần khả năng khái quát hóa của robot.
Do đó, đối với nhiều mô hình thể hiện, điều chúng cần học là logic về "cách con người thường thực hiện nhiệm vụ này".
So với dữ liệu thiết bị thực tế, loại dữ liệu này dễ sản xuất hàng loạt hơn. Với nhu cầu khổng lồ trong ngành, chỉ cần quy mô đủ lớn và chi phí nhân công thấp, thì sẽ có cơ sở để sinh lời và tạo ra dòng tiền tương đối dễ dàng.
Tuy nhiên, nếu dữ liệu không đáp ứng yêu cầu của khách hàng, cần phải làm lại. Lượng dữ liệu thực tế mà khách hàng phê duyệt ít hơn nhiều so với thời gian quay phim ban đầu, và thời gian hiệu quả có thể được đưa trực tiếp vào quy trình đào tạo quan trọng hơn.
Từ đó, ngành công nghiệp dần dần phát triển các phân tầng ngày càng rõ rệt. Bởi vì các loại dữ liệu khác nhau có giá trị rất khác nhau, nên có thể hình thành một "kim tự tháp dữ liệu" dựa trên cái nhìn tổng quan về chi phí, giá trị và các yếu tố khác.
Các loại dữ liệu khác nhau có giá trị rất khác nhau.
Trong "kim tự tháp dữ liệu", lớp dưới cùng là dữ liệu internet, hầu như không tốn chi phí thu thập và cũng có quy mô khá lớn.
Robot có thể học cách nhận biết hình dạng vật thể và bố cục tổng thể của nhà bếp từ video. Nhưng vấn đề rất rõ ràng: điều này chỉ giúp robot "biết", chứ không giúp chúng "làm". Thử thách thực sự trong thế giới thực nằm ở chuyển động, ma sát, trọng lượng, sự thay đổi vật liệu, các ràng buộc về không gian và rủi ro va chạm — tất cả đều không thể học được chỉ từ các video thông thường.
Phía trên đó là dữ liệu con người ở cấp độ cao hơn, và Dữ liệu Cái tôi (Ego Data) là phần quan trọng trong đó. Nó có thể cho mô hình biết con người hoạt động như thế nào từ góc nhìn người thứ nhất. Phần dữ liệu video này có thể được sử dụng để huấn luyện trước trên quy mô lớn, giống như những gì được thực hiện trong EgoScale.
Nhưng cuối cùng, robot cần phải tìm ra cách vận hành cơ thể của chúng. Ví dụ, vặn nắp chai là việc con người có thể dễ dàng làm được, nhưng robot có thể thất bại nhiều lần.
Do đó, dữ liệu cảm biến do găng tay dữ liệu cung cấp ngày càng trở nên quan trọng. Dữ liệu Ego thông thường chỉ có thể cho mô hình biết những gì nó đã nhìn thấy và nhiệm vụ nó đã hoàn thành. Nhưng cuối cùng, robot cũng cần biết khi nào cần tăng cường độ hoạt động và khi nào cần giảm cường độ.
Những chuyển động tinh tế này rất khó suy đoán chỉ từ video, vì vậy ngày càng nhiều công ty bắt đầu cố gắng kết hợp ghi lại chuyển động tay, ước tính tư thế, quỹ đạo khớp và dữ liệu hình ảnh.
Video cung cấp khả năng hiểu biết về không gian, găng tay cung cấp thông tin chi tiết về chuyển động, và dữ liệu điều khiển từ xa từ máy móc thực tế giúp robot hiểu rõ hơn cách cơ thể của nó nên thực hiện các hành động.

Tuy nhiên, một vấn đề thực tế vẫn tồn tại trong ngành công nghiệp này: các tiêu chuẩn về găng tay vẫn còn rất thiếu nhất quán. Các thiết bị khác nhau có sự khác biệt lớn về tần số lấy mẫu, định nghĩa khớp, độ chính xác và phương pháp biểu diễn chuyển động. Làm thế nào để ánh xạ ổn định các chuyển động của con người vào các cơ thể robot khác nhau vẫn là một thách thức lớn.
Do đó, nếu bạn không đeo găng tay dữ liệu và chỉ sử dụng camera gắn trên đầu để chụp ảnh, giá của Ego Data không quá cao. Tuy nhiên, một khi bạn thêm găng tay dữ liệu, giá sẽ tăng nhanh chóng.
Phía trên kim tự tháp là dữ liệu mô phỏng. Thông qua hoàn cảnh bản sao kỹ thuật số, robot có thể huấn luyện với tốc độ cao trong thế giới ảo, lặp đi lặp lại hàng lần thao tác nắm bắt, điều hướng và tránh chướng ngại vật. Lượng dữ liệu mà trong thực tế cần một tháng để hoàn thành có thể được xử lý chỉ trong vài ngày trong hoàn cảnh mô phỏng.
Tuy nhiên, mô phỏng rốt cuộc không phải là thế giới thực. Mặc dù được sản xuất hàng loạt và có chi phí thấp, nhưng rất khó để tái tạo hoàn toàn ma sát, sự thay đổi vật liệu, phản xạ và các yếu tố ngẫu nhiên khác trong thực tế. Đây là điều mà ngành công nghiệp thường gọi là "khoảng cách giữa mô phỏng và thực tế". Robot học rất tốt trong môi trường mô phỏng, nhưng một khi chúng bước vào hoàn cảnh thực, khả năng của chúng thường bị giảm đi đáng kể.
Ở đỉnh của kim tự tháp là dữ liệu máy móc thực tế chất lượng cao nhất, đắt nhất và hiếm nhất. Dữ liệu này chủ yếu được thu thập bởi các nhà điều khiển từ xa robot để hoàn thành nhiệm vụ cụ thể. Robot sẽ đồng thời ghi lại hình ảnh, chuyển động, tín hiệu điều khiển và trạng thái cảm biến.
Không giống như dữ liệu của con người, dữ liệu này hiện diện một cách tự nhiên trong không gian hành động của robot, do đó mô hình không còn cần phải vật lộn để hiểu cách các hành động của con người được ánh xạ vào cơ thể robot. Ngoài ra, dữ liệu máy móc thực tế cũng bao gồm dữ liệu hoạt động tự động được tạo ra trong quá trình ứng dụng, nhưng robot chưa được sử dụng rộng rãi, vì vậy dữ liệu mà chúng tạo ra cũng khan hiếm.
Hơn nữa, vấn đề cốt lõi với dữ liệu máy móc thực tế là hiệu suất sản xuất rất thấp. Để tăng quy mô dữ liệu, cần thêm robot và người vận hành, đồng thời cũng phát sinh chi phí cao cho mặt bằng và khấu hao thiết bị, tất cả những điều này sẽ nhanh chóng đẩy giá lên cao.
Theo một số chuyên gia trong ngành, dữ liệu Ego đơn giản nhất thường chỉ có giá vài chục nhân dân tệ mỗi giờ, trong khi giá dữ liệu cơ thể robot điều khiển từ xa thường tăng hàng trăm hoặc thậm chí hàng nghìn nhân dân tệ mỗi giờ.
Trong quá trình huấn luyện các mô hình robot từ các nhà sản xuất khác nhau, vai trò của mỗi lớp trong kim tự tháp dữ liệu là khác nhau. Kết quả là, các công ty dữ liệu thượng nguồn với các trọng tâm khác nhau, chẳng hạn như dữ liệu mô phỏng và dữ liệu góc nhìn người thứ nhất, đã xuất hiện trong ngành.
Ai đang giao dịch dữ liệu này?
Khi một ngành công nghiệp khổng lồ xuất hiện, những người đầu tiên thu lợi thường là những "người bán nước" ở thượng nguồn.
Điều tương tự cũng đúng với ngành công nghiệp trí tuệ thể hiện. Trong một hoặc hai năm qua, một số lượng lớn các công ty khởi nghiệp về robot đã xuất hiện trên toàn cầu, và nhân tài từ mọi lĩnh vực đang đổ xô vào lĩnh vực này.
Gần như mỗi ngày, các công ty mới đều thông báo hoàn tất vòng gọi vốn, và ngày càng nhiều công ty ở Trung Quốc được định giá hàng chục tỷ nhân dân tệ. Một số công ty thậm chí đã bắt đầu con đường IPO. Chuyển đến sự chú ý ra nước ngoài, Figure đã đạt mức định giá 39 tỷ đô la sau khi hoàn tất vòng gọi vốn Series C năm ngoái, đứng đầu trong số các công ty sản xuất robot hình người.
Ai cũng muốn chế tạo robot hình người đa năng, và tất cả chúng đều cần lượng dữ liệu khổng lồ. Đồng thời, do dòng vốn liên tục đổ vào, toàn bộ ngành công nghiệp này không thiếu tiền.
Do đó, đằng sau những công ty có nhu cầu dữ liệu mạnh mẽ và nguồn vốn nghiên cứu và phát triển dồi dào, ngày càng có nhiều "nhà cung cấp dịch vụ trung gian" ở khâu đầu nguồn của ngành công nghiệp robot, từ đó dần hình thành dữ liệu Chuỗi sản xuất dữ liệu cho ngành công nghiệp robot.
Hơn nữa, khi ngành công nghiệp phát triển, các công ty thượng nguồn này đã bắt đầu hình thành sự phân tầng rõ ràng xung quanh dữ liệu cần thiết cho việc huấn luyện robot. Từ cấu trúc ngành hiện tại, có thể chia chúng thành năm loại người chơi chính.

Loại đầu tiên là các "nhà máy dữ liệu" chi phí thấp, tập trung vào việc thu thập Dữ liệu Cá nhân (Ego Data). Tại Ấn Độ, Thái Lan và các nơi khác, ngày càng nhiều đội ngũ bắt đầu tổ chức lao động giá rẻ để xây dựng mạng lưới thu thập dữ liệu.
Ví dụ, một công ty khởi nghiệp có tên Neocambrian AI gần đây đã khởi động dự án nhà máy dữ liệu robot ở Ấn Độ để thu thập dữ liệu chuyển động của con người cho các mô hình trí tuệ nhân tạo thể hiện hình thể. Đặc biệt, người sáng lập của Ego Data nhấn mạnh rằng lực lượng lao động dồi dào của Ấn Độ là một lợi thế lớn để phát triển dữ liệu trí tuệ nhân tạo vật lý.
Các nhân viên thu thập dữ liệu đeo camera gắn trên đầu và găng tay ghi hình chuyển động, hoàn thành công việc theo quy trình nhiệm vụ, sau đó đội ngũ xử lý dữ liệu sẽ làm sạch, gắn nhãn và chấp nhận dữ liệu trước khi chuyển giao cho công ty robot.
Về mô hình kinh doanh, họ rất giống với các công ty gắn nhãn dữ liệu từng phục vụ các người mẫu lớn trong những năm đầu, ngoại trừ việc trước đây họ gắn nhãn văn bản, hình ảnh và giọng nói, còn bây giờ họ đang bắt đầu tạo ra những trải nghiệm trong thế giới thực.
Một chuyên gia trong ngành cũng cho biết họ đã cảm nhận rõ rệt sự gia tăng nhu cầu từ khách hàng nước ngoài trong năm qua. Điều này đặc biệt đúng đối với các công ty robot của châu Âu và Mỹ, "những công ty có yêu cầu cụ thể hơn về thông số kỹ thuật dữ liệu và biết chính xác những gì họ muốn."
Vì dữ liệu robot không đơn giản chỉ là "quay video", nhiều khách hàng thực sự cần một bộ dữ liệu có thể tích hợp trực tiếp vào quy trình huấn luyện, bao gồm chuỗi thời gian, hình ảnh đa góc nhìn, quỹ đạo chuyển động, trạng thái cảm biến, tư thế tay, siêu dữ liệu hoàn cảnh và cuối cùng là định dạng huấn luyện phù hợp.
Trong quá trình này, ngày càng nhiều công ty nhận ra rằng việc chỉ dựa vào lao động giá rẻ khó có thể tạo ra lợi thế cạnh tranh lâu dài. Trong tương lai, rào cản cạnh tranh lớn nhất đối với các "nhà máy dữ liệu" giá rẻ này sẽ phụ thuộc vào việc dữ liệu được cung cấp có thể được sử dụng dễ dàng và trực tiếp hơn hay không.
Hơn nữa, vấn đề này cũng rất thực tế: loại hình việc kinh doanh này vốn dĩ dễ bị thương mại hóa. Nếu một đội ngũ có thể làm được, về lý thuyết đội ngũ khác cũng có thể làm được. Khi giá cả trở nên minh bạch hơn, biên lợi nhuận thường bị thu hẹp.
Do đó, khả năng cung cấp sản phẩm với chi phí thấp là lợi thế lớn nhất của họ, nhưng đó cũng có thể trở thành giới hạn của họ.
Loại thứ hai là các lớp ghi lại chuyển động và căn chỉnh. So với việc chỉ đơn thuần ghi lại video, những công nghệ này đang cố gắng giải quyết vấn đề "làm thế nào để máy móc thực sự hiểu được chuyển động". Trọng tâm của họ không chỉ là lượng dữ liệu, mà còn là sự thể hiện của chuyển động.
Các ví dụ bao gồm găng tay dữ liệu, ghi hình chuyển động, theo dõi bàn tay, điều hướng chuyển động và giao diện thu thập dữ liệu hoạt động.
Thách thức thực sự đối với robot thường không nằm ở việc hiểu chúng làm gì, mà nằm ở cách chúng di chuyển. Ngay cả khi cố gắng cầm một chiếc cốc, các robot khác nhau có mức độ tự do khác nhau ở bàn tay khéo léo của chúng, cấu trúc ngón tay khác nhau và khả năng điều khiển lực khác nhau.
Điều này đặt ra một câu hỏi quan trọng: làm thế nào có thể ánh xạ ổn định các chuyển động của con người vào các cấu trúc cơ thể robot khác nhau?
Do đó, ngày càng nhiều công ty bắt đầu chú trọng hơn đến việc nhắm mục tiêu lại hành động. Trong quy trình này, video có nhiệm vụ cho robot biết con người đã làm gì, trong khi lớp hành động sẽ cung cấp thêm thông tin về những việc robot nên làm.
Giá trị thực sự của lớp này thường không nằm ở bản thân phần cứng, mà ở việc đạt được khả năng "chuyển đổi chuyển động" ổn định hơn.
Loại thứ ba là lớp dữ liệu Robot-Native, thường là nhà cung cấp dịch vụ điều khiển từ xa và dữ liệu thiết bị thực của bên thứ ba. Đặc điểm cốt lõi của loại hình này là họ gần gũi hơn với chính robot, và trong nhiều trường hợp, họ cần phải có mối liên hệ độ sâu với công ty sản xuất robot.
So với các phân khúc thu thập dữ liệu khác, dữ liệu máy thực tế phụ thuộc rất nhiều vào lượng lớn robot chuyên dụng. Các công ty khác nhau có phần cứng robot khác nhau, với những khác biệt đáng kể về bậc tự do, không gian chuyển động và giao diện điều khiển. Ngay cả đối với cùng một nhiệm vụ gắp vật, một robot khác có thể yêu cầu thu thập lại dữ liệu.
Trong quá trình này, họ sẽ cung cấp các nhà điều hành từ xa, địa điểm và khả năng thu thập dữ liệu máy thực tế để giúp các công ty robot nhanh chóng tích lũy dữ liệu huấn luyện, đặc biệt là trong giai đoạn xác minh ban đầu của các mô hình. Khi các công ty robot chưa có đủ đội ngũ và địa điểm, các nhà cung cấp dịch vụ bên ngoài thường có thể bắt đầu nhanh hơn.
Loại thứ tư bao gồm các công ty chuyên về mô phỏng và dữ liệu tổng hợp. Họ không chỉ bán dữ liệu; trọng tâm của họ là nỗ lực tạo ra một năng lực dữ liệu hoàn chỉnh hơn.

Trong quá trình tạo ra dữ liệu, chúng cũng giúp khách hàng trả lời các câu hỏi như tại sao robot không hoàn thành được nhiệm vụ và làm thế nào để thu thập lô dữ liệu tiếp theo. Đây là một phương pháp mới mà nhiều công ty đang áp dụng hiện nay.
Lý luận rất đơn giản: một robot có thể chỉ tích lũy được vài giờ quỹ đạo chuyển động hợp lệ trong một ngày huấn luyện. Nhưng trong thế giới mô phỏng, cùng một khoảng thời gian đó có thể được sử dụng cho hàng lần lỗi, bao gồm lỗi khi nắm bắt vật thể, lỗi lập kế hoạch đường đi, va chạm và rơi, tất cả đều có thể lặp lại vô hạn.
Do đó, ngành công nghiệp đã dần hình thành một sự kết hợp mới: dữ liệu thực tế đóng vai trò neo giữ thực tại, trong khi dữ liệu tổng hợp mô phỏng đóng vai trò mở rộng quy mô.
NVIDIA đã lần nhấn mạnh trong lộ trình GR00T của mình rằng mô hình robot cơ bản không chỉ cần dữ liệu minh họa từ con người mà còn cần lượng lớn dữ liệu tổng hợp. Các nhà phát triển có thể thu thập kiến thức ban đầu thông qua việc thu thập dữ liệu thực tế, sau đó mở rộng quy mô nhiệm vụ với sự hỗ trợ của mô phỏng.
Mô hình càng thất bại nhiều trong quá trình mô phỏng, nó càng biết rõ dữ liệu nào đang thiếu, và ai có thể tạo ra dữ liệu này nhanh nhất sẽ có cơ hội giành lợi thế cao hơn.
Loại người chơi thứ năm có xu hướng quan tâm hơn đến các tiêu chuẩn dữ liệu và các lớp nền tảng, tìm hiểu cách làm cho việc cung cấp dữ liệu trở nên chuẩn hóa hơn và dễ lưu thông hơn, đồng thời mở rộng quy mô dữ liệu .
Khi số lượng các công ty robot tăng lên, dữ liệu trở nên phân mảnh cao, với các phương pháp thu thập khác nhau, cách diễn đạt hành động khác nhau và tiêu chuẩn định dạng khác nhau. Trong nhiều trường hợp, ngay cả cùng một dữ liệu cũng khó có thể tái sử dụng trực tiếp.
Trong bối cảnh đó, các nỗ lực nhằm chuẩn hóa và thu thập dữ liệu thể hiện một cách hợp tác đã tăng lên đáng kể trong năm nay.
Đối với ngành công nghiệp robot hiện nay, thiếu dữ liệu chỉ là trong đó vấn đề; khả năng tạo ra dữ liệu một cách nhất quán và ổn định, cũng như việc dễ dàng tích hợp dữ liệu đó vào quá trình huấn luyện, lại quan trọng không kém.
Tuy nhiên, bất kể đó là dữ liệu của con người, dữ liệu máy móc thực tế hay dữ liệu mô phỏng, tất cả các bên liên quan đến dữ liệu cuối cùng đều phải trả lời câu hỏi này: Liệu các công ty robot có chuyển giao những khả năng cốt lõi này cho các nhà cung cấp bên ngoài hay không?
Xét cho cùng, đối với hầu hết các công ty hiện nay, dữ liệu không chỉ là một khoản chi phí mà còn là một rào cản gia nhập thị trường.
Các công ty sản xuất robot nên mua dữ liệu hay tự thu thập dữ liệu?
Bước sang năm nay, dữ liệu ngày càng địa vị quan trọng trong ngành công nghiệp robot, và ai cũng biết rằng robot thiếu dữ liệu.
So với trước đây, hiện nay trên thị trường có nhiều lựa chọn cung cấp dữ liệu hơn, với các loại dữ liệu khác nhau có nhà cung cấp riêng. Đối với các công ty sản xuất robot, việc mua dữ liệu ngày càng trở nên dễ dàng hơn.
Tuy nhiên, thực tế lại khác. Một mặt, ngày càng nhiều công ty robot bắt đầu mua dữ liệu , trong khi mặt khác, các công ty hàng đầu đang nỗ lực xây dựng đội ngũ dữ liệu riêng của mình.

Nếu phân tích kỹ hơn, bạn sẽ thấy rằng dữ liệu khác nhau sẽ quyết định các phương pháp tổ chức hoàn toàn khác nhau.
Ở một mức độ nào đó, điều mà các công ty robot thực sự đã phát triển là logic "mua sắm theo cấp bậc".
Trong đó đầu tiên bao gồm dữ liệu cơ bản, tổng quát, đây là lớp dễ dàng nhất để thuê ngoài.
Ví dụ, dữ liệu như sắp xếp nhà bếp, dọn dẹp bàn ăn, cầm nắm cơ bản, phân loại và di chuyển đều có một đặc điểm chung: bất kể robot trông như thế nào, cuối cùng nó đều cần hiểu cách con người hoàn thành nhiệm vụ.
Ví dụ, khi một robot vào bếp, khi nào nó nên giải phóng một tay trước, khi nào nó nên sắp xếp các vật lớn trước rồi đến các vật nhỏ, và không gian nên được sắp xếp lại như thế nào khi có quá nhiều đồ vật?
Về bản chất, những khả năng này là một phần của sự hiểu biết chung về thế giới vật chất, chứ không phải là khả năng độc quyền của bất kỳ robot cụ thể nào.
Nếu bạn tự thu thập dữ liệu về cái tôi theo cách này từ đầu, bạn sẽ cần phải xây dựng đội ngũ, điều này sẽ dẫn đến chi phí quản lý cao.
Ngược lại, đội ngũ bên ngoài có thể nhanh chóng mở rộng quy mô thu thập dữ liệu tại các khu vực như Đông Nam Á và Ấn Độ, và có thể sản xuất ổn định hàng nghìn giờ dữ liệu mỗi tháng.
Đối với các công ty robot, việc mua robot thường tiết kiệm chi phí hơn so với việc tự xây dựng đội ngũ của riêng mình. Điều này là bởi vì ở giai đoạn này, mục tiêu không phải là làm cho robot hoạt động đáng tin cậy, mà là trước tiên phải hiểu thế giới xung quanh.
Do đó, việc thuê ngoài xử lý loại dữ liệu này là một lựa chọn hợp lý, thậm chí còn hiệu quả hơn.
Lớp thứ hai là dữ liệu cá nhân hóa, mà các công ty robot thường tự thu thập.
Sau giai đoạn huấn luyện sơ bộ với lượng lớn dữ liệu cơ bản, quá trình huấn luyện tiếp theo sẽ tập trung vào khía cạnh cốt lõi của việc triển khai robot thực tế: sự phù hợp với nhiệm vụ.
Do đó, logic điều khiển bắt đầu thay đổi vì robot từ các công ty khác nhau rất khác nhau về mức độ tự do, sự khéo léo và khả năng khớp nối. Cuối cùng, logic chuyển động mà robot cần học cũng sẽ khác nhau đáng kể.
Càng tiến gần đến lớp thực thi hành động, dữ liệu càng trở nên ít phổ quát hơn. Do đó, mặc dù nhiều công ty mua lượng lớn Dữ liệu Cá nhân (Ego Data), họ vẫn xây dựng đội ngũ thu thập dữ liệu nội bộ để thu thập dữ liệu thiết bị thực. Điều này là bởi vì ở lớp này, khả năng cạnh tranh thực sự của mô hình bắt đầu bộc lộ.
Lớp thứ ba bao gồm dữ liệu triển khai và dữ liệu lỗi, đây là một lớp quan trọng và thường xảy ra sau khi quá trình triển khai thực tế hoàn tất.
Sau khi robot được triển khai trong các tình huống ứng dụng thực tế, chúng thường gặp phải nhiều tình huống không lường trước được trong hoàn cảnh làm việc. Dữ liệu được tạo ra trong các tình huống thực tế này, dù thành công hay không, đều vô cùng quý giá. Hơn nữa, những tình huống này hiếm khi gặp phải trong quá trình thu thập dữ liệu ban đầu và rất khó để thiết kế trước. Chúng chỉ có thể được tích lũy dần dần trong hoàn cảnh thực tế.
Hơn nữa, nhiều công ty gặp khó khăn trong việc triển khai robot lượng lớn trong các tình huống thực tế, do đó dữ liệu triển khai thực tế là điều không thể.
Trong quá trình triển khai, robot liên tục thu thập dữ liệu trong nhiều hoàn cảnh khác nhau. Ngay cả dữ liệu về lỗi cũng giúp đội ngũ nghiên cứu xác định nguyên nhân và phát triển các biện pháp khắc phục để tối ưu hóa mô hình và thúc đẩy hơn nữa việc triển khai robot trên quy mô lớn.
Đây là dữ liệu cốt lõi thuộc về các công ty robot hàng đầu, và chúng cũng là những rào cản tạo nên sự khác biệt giữa họ và các đối thủ cạnh tranh.
Điều này cũng phần nào hạn chế tiềm năng của các công ty dữ liệu. Họ có thể giúp robot "bắt đầu", nhưng dữ liệu thực sự quyết định giới hạn khả năng tối đa lại là thứ mà nhiều công ty hàng đầu cuối cùng sẽ lựa chọn tự kiểm soát.
Do đó, có thể thấy hai con đường khác nhau đã rẽ nhánh dữ liệu: một là nhà máy dữ liệu, và con đường còn lại là động cơ dữ liệu.
Các trung tâm dữ liệu hiện là loại hình doanh nghiệp phát triển nhanh nhất và nhiều nhất trong ngành, đồng thời cũng là loại hình dễ tạo ra dòng tiền nhất.
Trong đó, các trung tâm dữ liệu chi phí thấp chú trọng hơn vào dữ liệu hành vi con người, dựa vào lợi thế lao động giá rẻ, tính phí theo giờ, theo đuổi quy mô và khả năng cung cấp dịch vụ, và có thể nhanh chóng tạo ra dòng tiền dương. Tuy nhiên, rào cản gia nhập thị trường còn hạn chế, và số lượng đối thủ cạnh tranh gia nhập thị trường đang tăng nhanh, đặc biệt là sau EgoScale, lượng lớn các công ty khởi nghiệp đã bắt đầu đổ xô vào dữ liệu con người.
Các trung tâm dữ liệu phức tạp hơn, dựa trên dữ liệu hành vi của con người, triển khai robot theo lô để thu thập lượng lớn dữ liệu máy móc thực tế thông qua điều khiển từ xa hoặc vận hành tự động.
Một cách tiếp cận khác cố gắng tạo ra dữ liệu, bao gồm việc tổ chức hệ thống phân loại nhiệm vụ, xây dựng cấu trúc dữ liệu, thực hiện chuyển hướng hành động, kết nối với nền tảng mô phỏng, thực hiện đánh giá mô hình và tạo ra dữ liệu một cách lặp đi lặp lại dựa trên các mẫu lỗi của mô hình.
Nói cách khác, những gì họ đang làm không chỉ là bán dữ liệu, mà tập trung vào việc giúp robot liên tục trở nên thông minh hơn.
Liệu một phiên bản robot của Scale AI có xuất hiện?
Nếu đặt ngành công nghiệp robot hiện nay vào bối cảnh năm 2022, chúng ta sẽ thấy một sự tương đồng đáng kinh ngạc.
Vào thời điểm đó, ngành công nghiệp cũng phát hiện ra rằng điều thực sự quyết định giới hạn trên của khả năng một mô hình chính là dữ liệu.
Kết quả là, một số lượng lớn các công ty mới đã nhanh chóng nổi lên trong các lĩnh vực làm sạch dữ liệu, RLHF, đánh giá và hậu huấn luyện, ví dụ điển hình nhất là Scale AI.
Công ty này đã hỗ trợ các công ty xe tự lái trong việc gắn nhãn dữ liệu ở giai đoạn đầu. Bắt đầu từ năm 2019, Scale AI đã tích hợp độ sâu với OpenAI ở giai đoạn GPT-2, thực hiện việc gắn nhãn phản hồi của con người RLHF, đánh giá mô hình quy mô lớn, kiểm thử nhóm đỏ và phân tích ngược các trường hợp ngoại lệ để tạo ra dữ liệu.
Sau khi ChatGPT trở nên phổ biến, Meta Llama, Anthropic, Microsoft Azure và các công ty khác nhanh chóng áp dụng nó. Nhu cầu về dữ liệu chú thích, đánh giá và tổng hợp chất lượng cao cho các mô hình lớn tăng vọt, và doanh thu của công ty đã tăng hơn gấp bốn lần trong 3 năm.
Sau đó, công ty dần dần tiến sâu hơn vào các lớp cơ sở hạ tầng, chẳng hạn như quản lý dữ liệu, đánh giá mô hình và quy trình làm việc của AI.
Nhờ sự thành công của Scale AI, nhiều người đang tự hỏi liệu một công ty tương tự có xuất hiện trong ngành công nghiệp robot hay không.
Do hiện tại thiếu dữ liệu, việc tái tạo lại thí nghiệm này rất có thể xảy ra, nhưng không hoàn toàn khả thi.
Vì dữ liệu mà robot cần phức tạp hơn nhiều so với văn bản, nên việc xác định xem một câu trả lời đúng hay sai tương đối dễ dàng đối với các mô hình lớn. Tuy nhiên, trong thế giới robot, việc một hành động có thành công hay không thường đầy rẫy sự mơ hồ.
Chiếc cốc được nhặt lên, nhưng ở góc độ không đúng. Vật đó được đặt lại chỗ cũ, nhưng sụp đổ các vật khác. Và thường thì, có nhiều cách đúng để hoàn thành nhiệm vụ.
Do đó, điều mà ngành công nghiệp robot thực sự cần không phải là một nền tảng dữ liệu đơn giản, mà là một vòng lặp dữ liệu hoàn chỉnh bao gồm thu thập dữ liệu, chú thích, lập bản đồ chuyển động, tăng cường mô phỏng, đánh giá mô hình và phản hồi lỗi.
Điều mà robot thực sự thiếu không chỉ là dữ liệu, mà quan trọng hơn là khả năng liên tục tạo ra những trải nghiệm hiệu quả.
Do đó, ngày càng nhiều công ty đang chuyển trọng tâm cạnh tranh của họ từ thân robot và kiến trúc mô hình sang hệ thống dữ liệu.
Từ đầu năm đến nay, dù là Figure, 1X, PI hay lộ trình GR00T của NVIDIA, tất cả đều liên tục nhấn mạnh một hướng đi chung: tăng trưởng khả năng của robot. Nâng cấp phần cứng chỉ là một phần của vấn đề; dữ liệu nhiều hơn và quá trình huấn luyện hiệu quả hơn đang trở thành động lực chính.
Ở một mức độ nào đó, với sự khởi đầu của sản xuất hàng loạt và ứng dụng trong ngành công nghiệp robot, chúng ta đang chuyển từ "chế tạo máy móc" sang một kỷ nguyên mới của "cung cấp thức ăn cho máy móc".
Ở giai đoạn mà robot chưa thể đứng dậy hoặc đi lại, lợi thế cạnh tranh lớn nhất của các công ty ứng dụng công nghệ robot hình người nằm ở khả năng làm chủ phần cứng và điều khiển chuyển động.
Tuy nhiên, khi robot có thể chạy và nhảy, và thành tích của chúng trong nhiều cuộc thi vượt qua con người, khả năng làm việc tự chủ trở thành mục tiêu lớn nhất của ngành công nghiệp. Được thúc đẩy bởi mục tiêu này, trọng tâm chính của ngành công nghiệp đã chuyển sang dữ liệu quy mô lớn, chất lượng cao.
Để robot thành công trong thế giới thực phức tạp, chúng cần được trải nghiệm đủ nhiệm vụ thực tế trong không gian vật lý, để biết rằng cốc có thể bị đổ, quần áo có thể bị rối và không gian có thể không đủ. Kinh nghiệm này không tự nhiên tồn tại trên internet; nó chỉ có thể được tạo ra từng chút một.
Do đó, Chuỗi ngành công nghiệp dữ liệu này đã âm thầm hình thành đằng sau cơn sốt robot trong hai năm qua.
Một đầu của chuỗi là những người đeo camera trong một nhà máy ở Ấn Độ và đầu kia là những con robot liên tục sụp đổ trong một mô phỏng.
Ở phía đối diện là các công ty robot có giá trị hàng tỷ, hàng chục tỷ, hoặc thậm chí hàng trăm tỷ đô la, đang cố gắng đưa robot vào nhà cửa và nhà máy.
Từ các trung tâm dữ liệu và robot mô phỏng của Ấn Độ đến các công ty robot lớn trên toàn thế giới, một Chuỗi sản xuất mới đã bắt đầu hình thành. Tuy nhiên, lần này, thứ được sản xuất không phải là linh kiện, mà là dữ liệu.
Bài viết này được đăng tải trên tài khoản WeChat chính thức: Radio Wave 42 , tác giả: Lan Bo, biên tập viên: James, tiêu đề gốc: "Robot bắt đầu 'ăn dữ liệu': Từ nhà máy dữ liệu của Ấn Độ đến Chuỗi sản xuất bí mật của robot hình người trị giá hàng tỷ đô la"

