Tác giả: Paul Veradittakit, Đối tác Pantera Capital; Bản dịch: Jinse Finance xiaozou
bản tóm tắt:
Sự đổi mới và quy mô kinh tế của VLA đang thúc đẩy việc tạo ra những robot hình người giá cả phải chăng, hiệu quả và đa năng.
Khi robot kho hàng mở rộng sang thị trường robot tiêu dùng, các cơ chế đánh giá, tài chính và an toàn robot cần được khám phá thêm.
Crypto sẽ thúc đẩy ngành công nghiệp robot bằng cách cung cấp sự đảm bảo kinh tế cho sự an toàn của robot và tối ưu hóa cơ sở hạ tầng kết nối, độ trễ và quy trình thu thập dữ liệu.
ChatGPT hoàn toàn viết lại kỳ vọng của con người về trí tuệ nhân tạo. Khi các mô hình ngôn ngữ lớn bắt đầu tương tác với thế giới phần mềm bên ngoài, nhiều người cho rằng các tác nhân AI là hình thức cuối cùng. Nhưng nếu bạn nhìn lại các bộ phim khoa học viễn tưởng kinh điển như "Star Wars", "Blade Runner" hoặc "RoboCop", bạn sẽ thấy rằng điều mà con người thực sự mơ ước là trí tuệ nhân tạo có thể tương tác với thế giới vật lý dưới dạng robot.
Pantera Capital tin rằng "khoảnh khắc ChatGPT" trong lĩnh vực robot đang đến gần. Trước tiên, chúng tôi sẽ phân tích cách những đột phá trong trí tuệ nhân tạo đã thay đổi bối cảnh ngành trong vài năm qua, sau đó khám phá cách công nghệ pin, tối ưu hóa độ trễ và cải tiến thu thập dữ liệu sẽ định hình bối cảnh tương lai, cũng như nhân vật trong đó công nghệ crypto . Cuối cùng, chúng tôi sẽ giải thích lý do tại sao cho rằng an toàn robot, tài chính, đánh giá và giáo dục là những lĩnh vực theo chiều dọc cần tập trung vào.
1. Các yếu tố thay đổi
( 1 ) Đột phá trong trí tuệ nhân tạo
Những tiến bộ trong lĩnh vực mô hình ngôn ngữ lớn đa phương thức đang cung cấp cho robot "bộ não" cần thiết để thực hiện nhiệm vụ phức tạp. Robot nhận thức hoàn cảnh chủ yếu thông qua thị giác và thính giác.
Các mô hình thị giác máy tính truyền thống (như mạng nơ-ron tích chập) rất tốt trong nhiệm vụ phát hiện hoặc phân loại đối tượng, nhưng chúng gặp khó khăn trong việc chuyển đổi thông tin trực quan thành các hướng dẫn hành động có mục đích. Mặc dù các mô hình ngôn ngữ lớn hoạt động tốt trong việc hiểu và tạo văn bản, nhưng chúng bị hạn chế bởi khả năng nhận thức thế giới vật lý của chúng. 
Thông qua mô hình Tầm nhìn-Ngôn ngữ-Hành động (VLA), robot có thể tích hợp nhận thức thị giác, hiểu ngôn ngữ và hành động vật lý trong một khuôn khổ điện toán thống nhất. Vào tháng 2 năm 2025, Figure AI đã phát hành Helix, một mô hình điều khiển robot hình người phổ quát. Mô hình VLA thiết lập một chuẩn mực mới cho ngành công nghiệp với khả năng khái quát hóa zero-shot và kiến trúc kép Hệ thống 1/Hệ thống 2. Tính năng khái quát hóa zero-shot cho phép robot thích ứng ngay lập tức với các tình huống mới, đối tượng mới và hướng dẫn mới mà không cần đào tạo lại cho từng nhiệm vụ. Kiến trúc Hệ thống 1/Hệ thống 2 tách biệt lý luận bậc cao với lý luận nhẹ, hiện thực hóa một robot hình người thương mại có cả tư duy giống con người và độ chính xác theo thời gian thực.
( 2 ) Robot tiết kiệm trở thành hiện thực
Các công nghệ thay đổi thế giới đều có một điểm chung: khả năng tiếp cận. Điện thoại thông minh, máy tính cá nhân và in 3D đều đã trở nên dễ tiếp cận với tầng lớp trung lưu với mức giá phải chăng. Khi những chú rô-bốt như Unitree G1 có giá thấp hơn một chiếc xe Honda Accord hoặc mức thu nhập tối thiểu hàng năm là 34.000 đô la ở Hoa Kỳ, thì không có gì ngạc nhiên khi tưởng tượng ra một thế giới mà lao động chân tay và các công việc hàng ngày phần lớn do rô-bốt thực hiện.

( 3 ) Từ kho bãi đến thị trường tiêu dùng
Robot đang mở rộng từ các giải pháp kho bãi sang lĩnh vực tiêu dùng. Thế giới được thiết kế cho con người - con người có thể làm tất cả công việc của robot chuyên nghiệp, nhưng robot chuyên nghiệp không thể làm tất cả công việc của con người. Các công ty robot đang chuyển từ sản xuất robot dành riêng cho nhà máy sang phát triển robot hình người đa năng hơn. Kết quả là, công nghệ robot hàng đầu sẽ không chỉ tồn tại trong các nhà kho mà còn thâm nhập vào cuộc sống hàng ngày.
Chi phí là một trong những nút thắt chính của mở rộng. Chỉ báo mà chúng tôi quan tâm nhất là tổng chi phí cho mỗi giờ, được tính bằng tổng chi phí cơ hội của thời gian đào tạo và tính phí, chi phí thực hiện nhiệm vụ và chi phí mua robot, chia cho tổng thời gian hoạt động của robot. Chi phí này phải thấp hơn mức lương trung bình của ngành có liên quan để có khả năng cạnh tranh.

Để thâm nhập hoàn toàn vào lĩnh vực kho bãi, tổng chi phí của robot mỗi giờ phải dưới 31,39 đô la. Trong thị trường tiêu dùng lớn nhất, giáo dục tư nhân và dịch vụ y tế, chi phí phải được kiểm soát dưới 35,18 đô la. Hiện nay, robot đang hướng tới mục tiêu trở nên rẻ hơn, hiệu quả hơn và linh hoạt hơn .
2. Bước đột phá tiếp theo trong ngành robot
( 1 ) Tối ưu hóa pin
Công nghệ pin luôn là nút thắt cổ chai đối với các robot thân thiện với người dùng. Những chiếc xe điện đầu tiên như BMW i3 khó được phổ biến do những hạn chế của công nghệ pin, dẫn đến tuổi thọ pin ngắn, chi phí cao và tính thực tế thấp. Robot cũng đang phải đối mặt với tình huống khó xử tương tự. Robot Spot của Boston Động lực có thời lượng pin lần chỉ 90 phút và pin Unitree G1 có thời lượng pin khoảng 2 giờ . Rõ ràng là người dùng không muốn sạc thủ công sau mỗi hai giờ , vì vậy cơ sở hạ tầng sạc và kết nối tự động đã trở thành hướng phát triển chính. Hiện tại, có hai chế độ sạc chính cho robot: thay pin hoặc sạc trực tiếp.
Chế độ hoán đổi pin cho phép hoạt động liên tục bằng cách nhanh chóng thay thế các bộ pin đã cạn, giảm thiểu thời gian chết, phù hợp với các tình huống tại hiện trường hoặc trong nhà máy. Quá trình này có thể được thực hiện thủ công hoặc tự động.
Sạc cảm ứng sử dụng nguồn điện không dây. Mặc dù mất nhiều thời gian để sạc đầy, nhưng có thể dễ dàng đạt được quy trình hoàn toàn tự động.
( 2 ) Tối ưu hóa độ trễ
Hoạt động có độ trễ thấp có thể được chia thành hai loại: nhận thức hoàn cảnh và điều khiển từ xa. Nhận thức đề cập đến nhận thức không gian của robot về hoàn cảnh, trong khi điều khiển từ xa cụ thể đề cập đến việc điều khiển thời gian thực của người vận hành.
Theo nghiên cứu của Cintrini, hệ thống nhận thức của robot bắt đầu bằng các cảm biến giá rẻ, nhưng hệ thống bảo vệ công nghệ nằm ở sự tích hợp của phần mềm, điện toán công suất thấp và các vòng điều khiển chính xác ở cấp độ mili giây. Khi robot hoàn thành việc định vị không gian, mạng nơ-ron nhẹ sẽ đánh dấu chướng ngại vật, pallet hoặc con người. Sau khi nhãn cảnh được nhập vào hệ thống lập kế hoạch, lệnh động cơ được gửi đến chân, bánh xe hoặc cánh tay robot sẽ được tạo ngay lập tức. Độ trễ nhận thức dưới 50 mili giây tương đương với tốc độ phản xạ của con người - bất kỳ độ trễ nào vượt quá ngưỡng này sẽ khiến robot di chuyển vụng về. Do đó, 90% các quyết định cần được đưa ra cục bộ thông qua một mạng lưới thị giác-ngôn ngữ-hành động duy nhất.
Robot hoàn toàn tự động cần đảm bảo độ trễ của các mô hình VLA hiệu suất cao phải nhỏ hơn 50 mili giây; robot điều khiển từ xa yêu cầu độ trễ tín hiệu giữa người vận hành và robot không vượt quá 50 mili giây. Tầm quan trọng của mô hình VLA đặc biệt nổi bật ở đây - nếu các đầu vào hình ảnh và văn bản được xử lý bởi các mô hình khác nhau và sau đó nhập vào một mô hình ngôn ngữ lớn, độ trễ tổng thể sẽ vượt xa ngưỡng 50 mili giây.
( 3 ) Tối ưu hóa thu thập dữ liệu
Có ba cách chính để thu thập dữ liệu: dữ liệu video thực tế, dữ liệu tổng hợp và dữ liệu điều khiển từ xa. Điểm nghẽn cốt lõi của dữ liệu thực tế và dữ liệu tổng hợp là thu hẹp khoảng cách giữa hành vi vật lý của rô-bốt và mô hình video / mô phỏng. Dữ liệu video thực tế thiếu các chi tiết vật lý như phản hồi lực, lỗi chuyển động khớp và biến dạng vật liệu; trong khi dữ liệu mô phỏng thiếu các biến không thể đoán trước như lỗi cảm biến và Hệ số ma sát.
Phương pháp thu thập dữ liệu hứa hẹn nhất là điều khiển từ xa , trong đó người vận hành điều khiển robot từ xa để thực hiện nhiệm vụ. Tuy nhiên, chi phí lao động là yếu tố hạn chế chính đối với việc thu thập dữ liệu điều khiển từ xa.
Phát triển phần cứng tùy chỉnh cũng cung cấp các giải pháp mới cho việc thu thập dữ liệu chất lượng cao. Mecka kết hợp phương pháp chính thống với phần cứng tùy chỉnh để thu thập dữ liệu chuyển động của con người đa chiều, được xử lý và chuyển đổi thành các tập dữ liệu phù hợp để đào tạo mạng nơ-ron robot. Kết hợp với chu kỳ lặp lại nhanh, nó cung cấp lượng lớn dữ liệu chất lượng cao để đào tạo robot AI. Cùng nhau, các đường ống kỹ thuật này rút ngắn đường dẫn chuyển đổi từ dữ liệu thô sang robot có thể triển khai.
3. Các lĩnh vực thăm dò chính
( 1 ) Tích hợp công nghệ crypto và robot
Crypto có thể khích lệ các bên không tin cậy cải thiện hiệu quả của mạng lưới robot. Dựa trên các lĩnh vực chính được đề cập ở trên, chúng tôi cho rằng crypto có thể cải thiện hiệu quả ở ba khía cạnh: cơ sở hạ tầng kết nối, tối ưu hóa độ trễ và thu thập dữ liệu.
Mạng lưới cơ sở hạ tầng vật lý phi tập trung(DePIN) dự kiến sẽ cách mạng hóa cơ sở hạ tầng sạc. Khi robot hình người chạy khắp thế giới như ô tô, các trạm sạc cần phải dễ tiếp cận như các trạm xăng. Các mạng lưới tập trung đòi hỏi khoản đầu tư ban đầu lớn, trong khi DePIN phân bổ chi phí giữa các nhà điều hành nút, cho phép các cơ sở sạc mở rộng nhanh chóng đến nhiều khu vực hơn.
DePIN cũng có thể tối ưu hóa độ trễ điều khiển từ xa bằng cách tận dụng cơ sở hạ tầng phân tán. Bằng cách tổng hợp các tài nguyên điện toán nút phân tán về mặt địa lý, các lệnh điều khiển từ xa có thể được xử lý bởi nút bộ hoặc gần nhất, giảm thiểu khoảng cách truyền dữ liệu và giảm đáng kể độ trễ truyền thông. Tuy nhiên, dự án DePIN hiện tại chủ yếu tập trung phi tập trung, phân phối nội dung và chia sẻ băng thông. Mặc dù một số dự án chứng minh được lợi thế ứng dụng của điện toán biên trong phương tiện truyền phát trực tuyến hoặc Internet vạn vật, nhưng nó vẫn chưa mở rộng sang lĩnh vực robot hoặc điều khiển từ xa.
Điều khiển từ xa là cách thu thập dữ liệu hứa hẹn nhất, nhưng các thực thể tập trung phải tốn kém rất nhiều để thuê chuyên gia thu thập dữ liệu . DePIN giải quyết vấn đề này bằng cách sử dụng token crypto khích lệ bên thứ ba cung cấp dữ liệu điều khiển từ xa. Dự án Reborn xây dựng một mạng lưới toàn cầu gồm các nhà điều hành từ xa, chuyển đổi các đóng góp của họ thành tài sản kỹ thuật số được mã hóa và hình thành một hệ thống phi tập trung mà không cần sự cho phép - những người tham gia không chỉ có thể kiếm được lợi nhuận mà còn có thể tham gia vào việc quản lý và giúp đào tạo robot AGI.
( 2 ) An toàn luôn là mối quan tâm cốt lõi
Mục tiêu cuối cùng của robot là đạt được sự tự chủ hoàn toàn, nhưng như sê-ri phim Terminator đã cảnh báo, điều cuối cùng mà con người muốn thấy là sự tự chủ biến robot thành vũ khí tấn công. Sự an toàn của các mô hình ngôn ngữ lớn đã thu hút sự chú ý và khi các mô hình này có khả năng thực hiện các hành động vật lý, sự an toàn của robot trở thành điều kiện tiên quyết quan trọng để được xã hội chấp nhận.
An ninh kinh tế là một trong những trụ cột của sự thịnh vượng của hệ sinh thái robot. OpenMind, một công ty trong lĩnh vực này, đang xây dựng FABRIC, một lớp phối hợp máy phi phi tập trung sử dụng bằng chứng mật mã để đạt được xác thực danh tính thiết bị, xác minh sự hiện diện vật lý và thu thập tài nguyên. Không giống như quản lý thị trường nhiệm vụ đơn giản, FABRIC cho phép robot tự chứng minh thông tin danh tính, vị trí địa lý và hồ sơ hành vi mà không cần dựa vào các trung gian tập trung.
Các ràng buộc về hành vi và xác thực danh tính được thực thi thông qua các cơ chế Chuỗi, đảm bảo rằng bất kỳ ai cũng có thể kiểm toán việc tuân thủ. Các robot đáp ứng các tiêu chuẩn an toàn, yêu cầu về chất lượng và các quy định của khu vực sẽ được khen thưởng, trong khi những kẻ vi phạm sẽ phải đối mặt với hình phạt hoặc tư cách, do đó thiết lập các cơ chế trách nhiệm giải trình và tin cậy trong các mạng máy tự động.
Mạng lưới reStake của bên thứ ba (như Symbiotic) cũng có thể cung cấp các đảm bảo an ninh tương đương. Mặc dù hệ thống tham số phạt vẫn cần hoàn thiện, nhưng công nghệ có liên quan đã bước vào giai đoạn thực tế. Chúng tôi hy vọng rằng các hướng dẫn bảo mật của ngành sẽ sớm được hình thành và các tham số phạt sẽ được mô hình hóa theo các hướng dẫn này.
Ví dụ triển khai:
Công ty robot tham gia mạng lưới Symbiotic .
Thiết lập các thông số hình phạt có thể xác minh được (ví dụ: " áp dụng lực tiếp xúc của con người vượt quá 2500 Newton " );
Người đặt cược sẽ tiền ký quỹ để đảm bảo bot tuân thủ các thông số;
Trong trường hợp vi phạm, số tiền đặt cọc sẽ được dùng để bồi thường cho nạn nhân.
Mô hình này không chỉ khích lệ các công ty đặt vấn đề bảo mật lên hàng đầu mà còn thúc đẩy sự chấp nhận của người tiêu dùng thông qua cơ chế bảo hiểm của quỹ thế chấp.
Nhận xét của đội ngũ Symbiotic về lĩnh vực robot là:
Khung Staking phổ quát cộng sinh nhằm mục đích mở rộng khái niệm staking sang tất cả các lĩnh vực đòi hỏi sự chứng thực về an ninh kinh tế, cho dù thông qua các mô hình chia sẻ hay độc lập. Các kịch bản ứng dụng của nó trải dài từ bảo hiểm đến robot và yêu cầu thiết kế cụ thể cho các trường hợp cụ thể. Ví dụ, một mạng lưới robot có thể được xây dựng hoàn toàn dựa trên khung Symbiotic , cho phép các bên liên quan cung cấp các đảm bảo kinh tế cho tính toàn vẹn của mạng lưới.
4. Lấp đầy khoảng trống trong công nghệ robot
OpenAI đã thúc đẩy sự phổ biến của AI, nhưng nền tảng của khoảnh khắc ChatGPT đã được đặt ra. Các dịch vụ đám mây đã phá vỡ sự phụ thuộc của mô hình vào tỷ lệ băm cục bộ, Huggingface đã hiện thực hóa mô hình mã nguồn mở và Kaggle đã cung cấp một nền tảng thử nghiệm cho các kỹ sư AI. Những đột phá gia tăng này đã cùng nhau góp phần vào sự phổ biến của AI.
Không giống như AI , rất khó để tham gia vào lĩnh vực robot khi nguồn tài trợ bị hạn chế. Để đạt được sự phổ biến của robot, ngưỡng phát triển cần được hạ xuống mức độ tiện lợi tương đương với phát triển ứng dụng AI . Chúng tôi cho rằng có thể cải thiện ở ba khía cạnh: cơ chế tài chính, hệ thống đánh giá và hệ sinh thái giáo dục.
Tài chính là một điểm khó khăn trong lĩnh vực robot. Để phát triển một chương trình máy tính, bạn chỉ cần một máy tính và tài nguyên điện toán đám mây, nhưng để chế tạo một robot hoạt động đầy đủ, bạn phải mua phần cứng như động cơ, cảm biến và pin, và chi phí có thể dễ dàng vượt quá 100.000 đô la. Thuộc tính phần cứng này khiến việc phát triển robot kém linh hoạt và tốn kém hơn AI.
Cơ sở hạ tầng đánh giá cho robot trong các tình huống thực tế vẫn còn trong giai đoạn sơ khai. Một hệ thống hàm mất mát rõ ràng đã được thiết lập trong lĩnh vực AI và thử nghiệm có thể được ảo hóa hoàn toàn. Tuy nhiên, các chiến lược ảo tuyệt vời không thể được chuyển đổi trực tiếp thành các giải pháp hiệu quả trong thế giới thực. Robot cần các cơ sở đánh giá để thử nghiệm các chiến lược tự động trong hoàn cảnh thực tế đa dạng để đạt được tối ưu hóa lặp lại.
Khi các cơ sở hạ tầng này trưởng thành, tài năng sẽ lượng lớn vào, và robot hình người sẽ lặp lại đường cong bùng nổ của Web2. Công ty robot crypto OpenMind đang tiến theo hướng này - dự án mã nguồn mở OM1 ("Android dành cho Robot") của họ biến phần cứng thô thành một tác nhân thông minh có thể nâng cấp và nhận thức về mặt kinh tế. Mô-Đun lập kế hoạch thị giác, ngôn ngữ và chuyển động có thể cắm và chạy giống như các ứng dụng trên điện thoại di động, và tất cả các bước lý luận đều được trình bày bằng tiếng Anh đơn giản, cho phép người vận hành kiểm toán hoặc điều chỉnh hành vi mà không cần chạm vào phần mềm cơ sở. Khả năng lý luận ngôn ngữ tự nhiên này cho phép một thế hệ tài năng mới bước vào lĩnh vực robot một cách liền mạch, thực hiện một bước quan trọng hướng tới một nền tảng mở sẽ châm ngòi cho cuộc cách mạng robot, giống như phong trào mã nguồn mở đã thúc đẩy AI.

Mật độ tài năng quyết định quỹ đạo của ngành. Một hệ thống giáo dục hòa nhập có cấu trúc là rất quan trọng để cung cấp tài năng trong lĩnh vực robot. Việc niêm yết OpenMind trên Nasdaq đánh dấu sự khởi đầu của một kỷ nguyên mới trong đó các máy móc thông minh tham gia vào cả đổi mới tài chính và giáo dục thể chất. OpenMind và Robostore đã cùng nhau công bố rằng họ sẽ ra mắt khóa học giáo dục phổ thông đầu tiên dựa trên robot hình người Unitree G1 tại các trường công lập K-12 tại Hoa Kỳ. Thiết kế khóa học không phụ thuộc vào nền tảng và có thể được điều chỉnh cho nhiều hình dạng robot khác nhau, mang đến cho học sinh cơ hội vận hành thực tế. Tín hiệu tích cực này củng cố thêm phán đoán của chúng tôi: sự phong phú của các nguồn tài nguyên giáo dục về robot trong vài năm tới sẽ tương đương với lĩnh vực AI .
5. Triển vọng tương lai
Những cải tiến trong mô hình Tầm nhìn-Ngôn ngữ-Hành động (VLA) và quy mô kinh tế đã dẫn đến những robot hình người giá cả phải chăng, hiệu quả và đa năng. Khi robot kho hàng mở rộng vào thị trường tiêu dùng, các mô hình an toàn, tài chính và hệ thống đánh giá trở thành những lĩnh vực khám phá chính. Chúng tôi tin chắc crypto sẽ thúc đẩy sự phát triển của robot thông qua ba con đường: cung cấp sự đảm bảo kinh tế cho sự an toàn, tối ưu hóa cơ sở hạ tầng sạc và cải thiện hiệu suất độ trễ và đường ống thu thập dữ liệu.



