XRZero-G0, hệ thống hộp đen mã nguồn mở đầu tiên của Trung Quốc用于mã nguồn mở dữ liệu không cần ontology, là một hệ thống robot biến đổi độc lập. Dự án này tích hợp toàn bộ Chuỗi thu thập dữ liệu không cần ontology, kiểm tra chất lượng, huấn luyện và đánh giá trên thiết bị thực, đi kèm với hơn 2000 giờ dữ liệu đa phương thức bao gồm 3000 nhiệm vụ . Giải pháp cốt lõi bao gồm người vận hành đeo thiết bị VR và nhiều camera để ghi lại chuyển động, loại bỏ nhu cầu về robot tại chỗ. Hệ thống đảm bảo chất lượng dữ liệu thông qua ba bước kiểm tra bảo mật—góc nhìn ba camera, xác minh IK giới hạn ảo và phát lại trên thiết bị thực—đạt tỷ lệ hiệu quả dữ liệu vượt quá 85%. Các thí nghiệm cho thấy rằng việc huấn luyện với tỷ lệ dữ liệu không cần ontology so với dữ liệu thiết bị thực là 10:1 mang lại kết quả tương đương với việc huấn luyện chỉ với 500 dữ liệu thiết bị thực, giảm chi phí thu thập xuống còn một phần hai mươi so với ban đầu. Hệ thống cũng hỗ trợ chuyển giao chéo ontology không cần mẫu, giải quyết sự khác biệt về ontology trong quá trình triển khai robot.
Tác giả và nguồn bài viết: Leifeng.com
Gần đây, ngành công nghiệp thiết kế hình thể đang tràn ngập tin tức về một dự án mã nguồn mở.
Mọi chuyện bắt đầu từ một tin đồn lan truyền trong một nhóm nhỏ rằng "ai đó mã nguồn mở toàn bộ dữ liệu thể hiện trong cộng đồng". Tôi đã kiểm tra vì tò mò, nhưng càng tìm hiểu, tôi càng thấy nó đáng ngờ. Đây không chỉ là một dữ liệu đơn giản; mà là cả một hệ thống thu thập dữ liệu không dựa trên ontology.
Nói cách khác, những gì người khác mã nguồn mở là "một đoạn mã", trong khi mã nguồn mở này là một Chuỗi thu thập dữ liệu không dựa trên ontology, kiểm tra chất lượng, đào tạo và đánh giá trên thiết bị thực, cùng với một dữ liệu đa phương thức không dựa trên ontology với hơn 2.000 giờ bao gồm 3.000 nhiệm vụ , tất cả được đóng gói và phát hành đầy đủ.


Link bài báo: https://arxiv.org/abs/2604.13001
Đây là lần đầu tiên điều này xảy ra ở nước này, vì vậy tôi đã tìm hiểu kỹ hơn về bài báo liên quan:
Tóm lại, bài báo XRZero-G0 đã làm được hai việc: Thứ nhất, nó đã mở ra "hộp đen" của việc thu thập dữ liệu bằng robot, chứng minh từng bước cách thu thập một bộ dữ liệu chất lượng cao với chi phí cực thấp. Thứ hai, nó đã hướng dẫn bạn cách huấn luyện dữ liệu từng bước một.
Trước tiên, hãy nói về việc thu thập dữ liệu. Có thể bạn đã nghe rằng "việc thu thập dữ liệu trong ngành công nghiệp thể hiện vừa khó khăn vừa tốn kém", và một số người thậm chí còn đưa ra những tuyên bố vô lý rằng sự phát triển chậm chạp của các ngành công nghiệp thể hiện hoàn toàn là do các vấn đề về thu thập dữ liệu.
Hãy nhìn vào các mô hình lớn; chúng sử dụng văn bản, thứ có sẵn trực tuyến. Mặt khác, robot sử dụng dữ liệu vật lý, mỗi mẩu dữ liệu đều đòi hỏi đầu tư đáng kể để thu thập. Hơn nữa, trong quá khứ, việc thu thập dữ liệu trong ngành công nghiệp này gặp phải ba trở ngại chính: chi phí cao, các phương pháp không đảm bảo vệ sinh và không thể tái sử dụng. Đây chính là " Bộ ba bất khả thi của blockchain " của dữ liệu thể hiện.

Bài báo XRZero-G0 đưa ra một giải pháp khéo léo, cốt lõi của nó có thể được tóm gọn trong một câu: con người mặc thiết bị để thực hiện công việc, và không cần robot tại hiện trường.
Phương pháp này đã được nghiên cứu trước đây (ví dụ, mô hình UMI), nhưng nó có một nhược điểm chí mạng: dữ liệu thu thập được giống như một "hộp đen", nghĩa là bạn không biết liệu thiết bị thực tế có thể chạy được nó hay không. Lần, XRZero-G0 đã vượt qua ba "bài kiểm tra bảo mật", biến hộp đen thành một hộp trắng trong suốt.
Điểm kiểm tra an ninh đầu tiên: ba camera.
Trước đây, các thiết bị thu thập dữ liệu cầm tay chỉ có một hoặc hai góc nhìn. Điều này có một nhược điểm: nếu tay bị bắt chéo hoặc bị vật thể che khuất, dữ liệu sẽ bị mất ngay lập tức. XRZero-G0 áp dụng một cách tiếp cận đơn giản: người vận hành đeo tai nghe PICO VR với một camera toàn cảnh trên đỉnh đầu và một camera ở mỗi cổ tay.

Với ba góc nhìn này, cộng thêm thông tin về tư thế với sáu bậc tự do, cùng với sự căn chỉnh không gian-thời gian bằng cách tính toán cạnh của ba lô, độ chính xác trực tiếp là ≤4 milimét. Cho dù bạn xoay người, cúi xuống hay đi bộ như thế nào, các vấn đề về che khuất và trôi lệch sẽ không xảy ra.

Bước kiểm tra an ninh thứ hai: Lắp đặt công tắc giới hạn ảo.
Ai cũng biết rằng khớp xương người đủ linh hoạt để tập yoga, nhưng robot thì không. Trước đây, trong quá trình điều khiển từ xa, tôi đã thực hiện một động tác mà robot không thể làm được, và động cơ bị cháy. XRZero-G0 rất thông minh; nó tích hợp tính năng tự động kiểm tra động học ngược (IK) để lọc ra những chuyển động vượt quá giới hạn của khớp.
Bước kiểm tra bảo mật thứ ba: phát lại hoạt động của thiết bị thực tế.
Sau hai quá trình sàng lọc đầu tiên, hệ thống sẽ chọn ngẫu nhiên một phần dữ liệu và gửi trực tiếp đến một robot hai tay thực tế để "phát lại vòng hở". Chỉ khi robot hoàn thành thành công nhiệm vụ thì lô dữ liệu này mới được coi là đã được lưu trữ trong cơ sở dữ liệu.
Sau ba lớp sàng lọc, tỷ lệ dữ liệu hợp lệ được đưa vào cơ sở dữ liệu kéo lên hơn 85%, với khả năng sử dụng tương đương dữ liệu thực tế từ máy móc, và tốc độ thu thập thậm chí còn nhanh hơn.
Theo dữ liệu trong bài báo, nhiệm vụ đơn giản được giảm từ 35 giây xuống còn 15 giây, tăng tốc độ lên 2,33 lần; nhiệm vụ phức tạp cũng nhanh hơn 1,71 lần. Tốc độ thu thập dữ liệu cao nhất đạt 93,2 track mỗi giờ. Chẳng phải điều này còn tốt hơn cả một thiết bị thực tế sao?

Tuy nhiên, những điều trên chỉ dạy "cách thu thập dữ liệu tốt hơn". Phần quan trọng hơn của bài báo XRZero-G0 là dạy mọi người "cách huấn luyện"dữ liệu.
Trong huấn luyện thể chất, ai cũng biết rằng "dữ liệu rẻ tiền không cần cơ thể vật lý" và "dữ liệu đắt tiền từ máy móc thực tế" nên được sử dụng cùng nhau, nhưng tỷ lệ giữa chúng nên được phối hợp như thế nào? Trước đây, tất cả phụ thuộc vào thuật giả kim.
Đội ngũ XRZero-G0 đã làm được một việc đặc biệt xuất sắc: họ tiến hành một thí nghiệm có hệ thống và toàn diện, và cuối cùng đã phát hiện ra "tỷ lệ vàng".
Trước đó, họ đã so sánh ba lựa chọn:
▪ 500 dữ liệu máy thuần túy (mức cơ sở)
▪ 500 mặt hàng thiết bị thật + 500 mặt hàng không có thiết bị gốc (tỷ lệ 1:1)
▪ 50 thiết bị thật + 500 thiết bị không có thiết bị (tỷ lệ 10:1)
Kết quả thật ngoài mong đợi: phương pháp tỷ lệ 10:1 đạt tỷ lệ thành công tương đương, hoặc thậm chí cao hơn, so với phương pháp sử dụng 500 dữ liệu máy thực tế. Nói một cách đơn giản hơn: bạn giảm 90% lượng dữ liệu máy thực tế cần dùng và tổng chi phí xuống còn một phần hai mươi so với phương pháp truyền thống, trong khi vẫn tạo ra mô hình thông minh tương đương. Điều này thể hiện hiệu quả chi phí tăng gấp 20 lần.
Bài báo giải thích lý do đằng sau hiện tượng này, được gọi là "hiệu ứng neo vật lý mẫu ít".

Đó chưa phải là tất cả. Mô hình được huấn luyện trên dữ liệu này cũng có thể đạt được khả năng chuyển giao giữa các ontology "không cần mẫu".
Như đã đề cập trước đó, vấn đề lớn nhất với các hệ thống điều khiển từ xa truyền thống là sự di chuyển của người vận hành. Nếu bàn được nâng lên mười centimet, hoặc nếu sử dụng một robot khác, hệ thống sẽ hoàn toàn thất bại. Tuy nhiên, XRZero-G0 là một hệ thống kiểu ba lô, và khi người vận hành di chuyển xung quanh, góc nhìn, chiều cao và ánh sáng sẽ tự nhiên thay đổi một cách năng động trong quá trình thu thập dữ liệu. Sự "nhiễu" phong phú này thực sự làm cho mô hình trở nên cực kỳ mạnh mẽ.
Bài báo tiết lộ một số chi tiết thực sự ấn tượng: mô hình được huấn luyện trên dữ liệu hỗn hợp này đã được triển khai trực tiếp lên EX001 và CX001 mà không cần tiếp xúc với bất kỳ dữ liệu máy thực tế nào, và nó đã thực hiện các tác vụ như cắm hoa, gấp khăn và nhồi xúc xích mà không gặp bất kỳ vấn đề nào.

Tôi xin được chia sẻ ngắn gọn suy nghĩ của mình về XRZero-G0. Trọng tâm của bài báo này là phân tích và giải thích cho người hành nghề , giống như sách hướng dẫn , cách thu thập dữ liệu với chi phí thấp và cách sử dụng dữ liệu hiệu quả.
Ai cũng cảm nhận được rằng ngành công nghiệp mô phỏng đang chuyển từ "cạnh tranh dựa trên bản demo" sang "cạnh tranh dựa trên dữ liệu ". Tuy nhiên, ngành này thiếu sự đồng thuận và định hướng về cách tối đa hóa thời gian dành cho các dự án. XRZero-G0 đã hướng dẫn ngành này toàn bộ Chuỗi , từ "thu thập dữ liệu dễ dàng hơn" và "tìm ra tỷ lệ dữ liệu hoàn hảo" đến việc cuối cùng đạt được "di chuyển dữ liệu giữa các ontology mà không cần lấy mẫu".
Loại công việc kỹ thuật này không thể được thực hiện bởi một phòng thí nghiệm đại học đơn lẻ hay một học giả xuất sắc; nó đòi hỏi một đội ngũ gia trong ngành hiểu biết cả về học thuật và công nghiệp.
Công ty đứng sau XRZero-G0 là X-Square Robot.
Để hiểu tại sao IndependentVariable có thể xây dựng XRZero-G0, hãy xem xét lựa chọn lộ trình của họ. Ngay từ ngày đầu tiên, công ty đã chọn mô hình đầu cuối quy mô lớn, đồng thời khám phá các tuyến đường VLA, WM và WUM. Những người trong ngành đều biết rằng cách tiếp cận này sẽ không thể hoạt động nếu thiếu năng lực cơ sở hạ tầng vững chắc. Do đó, từ WALL-OSS đến XRZero-G0, IndependentVariable luôn xây dựng cơ sở hạ tầng liên quan đến cơ sở hạ tầng.
Con đường này có thể khó khăn, nhưng đó là con đường đúng đắn. Hãy nhìn vào thị trường vốn: chỉ trong chưa đầy hai năm, công ty đã hoàn thành chín vòng gọi vốn, đạt mức định giá hơn 10 tỷ đô la, với bốn công ty lớn – ByteDance, Meituan, Alibaba và Xiaomi – nằm trong danh sách cổ đông.
Lý do XRZero-G0 hoàn toàn là mã nguồn mở thậm chí còn đơn giản và trực tiếp hơn.
Một "khoảnh khắc ChatGPT" thực sự hoàn chỉnh không thể được tạo ra bởi một công ty duy nhất. Khi các trường đại học, đội ngũ vừa và nhỏ, và các nhà phát triển cá nhân đều có thể sử dụng Chuỗi tiêu chuẩn XRZero-G0 để tạo ra dữ liệu theo lô, guồng máy dữ liệu của toàn ngành sẽ thực sự bắt đầu vận hành, và vào thời điểm đó, hệ thống bảo vệ về các biến số độc lập sẽ được xây dựng.
Dưới đây là liên kết đến trang GitHub của XRZero-G0 ở cuối bài viết này. Tôi khuyên bạn nên xem qua:
https://github.com/X-Square-Robot/XRZero-G0




