人形機器人等待ChatGPT時刻

AI浪潮持續高漲。

機器人領域頗為典型。由中國機械工業聯合會等單位主辦的2025中國機器人產業發展大會,近日召開了新聞發佈會。發佈會數據顯示,國內機器人產業規模高速增長,營收已由2020年的1061億元增長到了2024年的2378.9億元;2025年前三季度,國內機器人產業營收同比增長29.5%,工業機器人產量達59.5萬臺,服務機器人產量達1350萬套,工業機器人和服務機器人產量均已超2024年全年。

作為AI的關鍵載體與核心落地方向,機器人正為產業變革注入全新動能。這一趨勢更流行的表述是“具身智能”,後者指具有物理載體的智能體,能夠通過感知、決策與交互能力在現實世界中執行任務,並在與環境互動中持續進化。具身智能已在推動技術從算法模型邁向現實世界,進而拓展AI應用邊界,為實現通用AI探索更多可能。

從定義看,具身智能不止包括人形或其他形態的機器人,也包括搭載AI模型的無人機、智能汽車等。具身智能中,人形機器人賽道尤為引人注目。從海外的Figure AI、特斯拉到國內的宇樹科技、智元機器人等,全球創新力量帶動行業疾步向前,不斷刷新。

2025年10月29日,挪威科技公司1X發佈家用人形機器人NEO,以約2萬美元(約合人民幣14.2萬元)的售價或每月499美元(約合人民幣3500元)的月度訂閱費用開放預訂,計劃於2026年交付。宇樹科技則將人形機器人帶入“雙十一”大促活動,以2.99萬元的價格在京東平臺售賣。

自2022年11月ChatGPT點燃全球AI熱潮,AI迅速進入大眾視野,從遙不可及的高端科技變成人人皆可使用的工具。CNNIC即中國互聯網絡信息中心發佈的《生成式人工智能應用發展報告(2025)》顯示,截至2025年6月,國內生成式人工智能用戶規模已達5.15億人,普及率為36.5%。

生成式人工智能或稱生成式AI、AIGC的發展促進了相關領域,特別是具身智能行業的發展,使《我,機器人》《機器人總動員》等科幻作品中的人與機器人共處的場景離現實越來越近。於是,科技巨頭重金押注,創業公司爭相入場。在這場關乎科技未來的競爭中,玩家們竭力挖掘護城河,試圖率先創造人形機器人的“ChatGPT時刻”。

01

求解動作難題

如今人形機器人的迭代可謂日新月異。

機器人表演就頗為顯眼。在2025年1月的央視春晚上,宇樹科技機器人H1表演的《秧Bot》僅是根據節奏扭動身體和轉動手帕,動作相對簡單。到了2025年10月,在舞劇《天工開物》的謝幕環節中,宇樹科技機器人已能精準復現舞者姿態,以流暢的側翻、後空翻等完成“人機共舞”。

宇樹科技機器人相關表演視頻在抖音、快手等平臺迅速傳播,目前視頻點贊量已累計超過130萬。有用戶在評論區發出感慨說,機器人動作年初看起來還不協調,沒幾個月已經協調到這種地步,像是“輸入武功秘籍”了。

機器人的突破性進展是科技發展數十年持續積累的結果。

要知道,AI奠基者艾倫·圖靈在1950年的論文中就提出過智能必須依託物理實體與外界動態交互才能形成。只是受限於科技水平,半個多世紀以來,機器人都與真正意義上的具身智能相去甚遠。

在2011年福島核電站事故中,救援現場找不到具備實際作業能力的成熟機器人,有限的設備在複雜輻射環境中頻頻受困,甚至被散落電纜絆倒,難以執行關鍵任務。在此之後,DARPA,即美國國防部高級研究計劃局宣佈舉辦機器人挑戰賽,旨在推動災難救援機器人技術研發。

第一屆美國國防部高級研究計劃局機器人挑戰賽2012年10月啟動,直到2015年6月才決出勝者。決賽需要機器人進行抵達任務區、自主下車、打開房門、關閉閘門、藉助工具開洞等操作,參賽機器人大多步履蹣跚,頻頻跌倒,多數都無法完整完成所有操作。獲得冠軍的是韓國KAIST研發的機器人HuBo,行進時並不是依靠雙足,而是以萬向輪保證機器人的速度和平衡。亞軍則是由波士頓動力研發的機器人Atlas。

彼時該決賽視頻引發了公眾熱議——機器人行動遲緩,錯漏百出,與公眾期待的靈敏、智能的助手形象毫不相干。

作為全球頭部人形機器人公司,成立於1992年的波士頓動力曾是行業先驅。早在2017年,波士頓動力的Atlas就展示過後空翻。然而,Atlas原先採用的是液壓驅動系統,高強度、高精度的同時還有高能耗、高噪音和高成本的問題,難以商業化。波士頓動力2013年被谷歌收購、2017年轉至軟銀,2021年又被韓國現代收購。軟銀時期,波士頓動力曾以約7.5萬美元(約合人民幣53萬元)的價格將機器狗Spot推向市場,僅售出約400臺。

空翻動作之所以被視為機器人技術發展的關鍵里程碑,在於它系統性融合並推動了機器人硬件設計、動態控制與實時決策等多個核心領域的進步。

據海克財經瞭解,要完成空翻動作,機器人的驅動系統要瞬間釋放足量功率密度,且高負載持續時間極短;系統需實時解算包含前後、左右、上下平移及繞三軸旋轉的六自由度運動方程,超過0.5度的角度偏差就可能導致落地失衡;機器人腳踝、膝蓋與髖關節需要減震緩衝,要求腳掌力傳感器在0.01秒內感知地面反作用力並作出響應。

以宇樹科技為代表的新玩家捨棄了液壓驅動方案,選擇純電驅動技術路線,克服了原先電力驅動功率不如液壓驅動的問題,通過自研高扭矩電機與輕量化結構設計來保證動作完成性與成本的平衡。比如宇樹G1,用23-43個關節電機設計,最大關節扭矩達120N·m,使其即使在側空翻這類對橫向慣性控制要求極高的動作中仍能維持整體穩定。

波士頓動力亦於2024年4月推出了電驅版Atlas,標誌著電驅技術路徑獲得更廣泛認可。到了2025年2月,國內企業眾擎機器人成功完成全球首次機器人前空翻,實現了技術上的重要突破。與前階段常見的後空翻相比,前空翻對機器人的動態平衡能力、瞬間爆發力與精準落地控制提出了更高要求。

02

智能從何而來

空翻等高難度動作的突破,意義遠不止於技術展示。

這些動作能夠系統驗證整機控制系統與關鍵零部件的成熟度,為機器人在複雜現實環境中的應用奠定了基礎。在2025年9月的公開演示中,宇樹機器人G1面對連續推搡與踢打,能夠很快反應,恢復至站立狀態,展現出了相當的運動智能。

這標誌著機器人從實驗室走向複雜現實世界的進程再度加速。

自2022年AIGC的突破及特斯拉推出機器人Optimus原型機以來,全球人形機器人產業進入快速發展期。國泰海通證券2025年11月發佈的一份研報綜合多方數據顯示,2024年國內人形機器人企業註冊量為104家,同比增速104%;人形機器人亦是投融資熱點,2025年1-7月,國內人形機器人行業融資達101起,融資額超過260億元,已超過2024年全年融資額;2024年以前,人形機器人行業處於實驗測試階段,產品性質為原型機,規模多在10臺以內,2024-2025年,行業進入試製階段,部分頭部企業開啟數十臺至數百臺的試點交付,2025年以後行業將進入規模量產階段。

需要說明的是,機器人行業玩家根據業務重心可劃分為硬件型與軟件型兩大發展路徑。硬件型企業以機器人本體為核心切入點,聚焦關節模組、電機、減速器、控制器等關鍵零部件的自主研發,並重點突破運動控制算法。這類似於人類的“小腦”,其產品通常以載重、速度與運動性能作為主要衡量指標,比如波士頓動力、宇樹科技等。

軟件型企業則更多從具身智能技術出發,以前沿的視覺語言大模型、世界模型、仿真合成數據等大腦能力作為研發起點,通常通過外採零部件進行本體集成,重點強調機器人的認知與決策智能,比如銀河通用。而像特斯拉這樣具備規模化製造基礎的車企,能夠憑藉深厚的硬件製造基因與來自智能駕駛的軟件積累,在機器人領域展現出軟硬一體的全棧能力。

在人工智能技術尚未成熟階段,機器人完全依賴工程師編寫的精確軌跡代碼執行任務,本質與傳統的生產設備並無差異。正如波士頓動力Atlas在2017年展示的後空翻動作,本質上仍是預設程序的精確執行。

之後,機器人學習進入數據驅動階段,通過觀察模仿與反覆試錯自主學習技能。更進一步以後,智能系統與自主學習深度融合,機器人開始能理解抽象指令,在陌生環境中主動嘗試解決方案,逐步向能應對複雜現實的自主智能體進化。由此,全球玩家在算法上各展所長。

海外頭部玩家Figure AI在2025年2月宣佈終止與OpenAI的合作後,轉向自研端到端AI模型,據稱其AI大模型Helix已取得重大技術突破。Helix首次將雙系統思維引入VLA模型(視覺語言動作模型),系統1專注於實時動作控制,能夠以極高響應速度處理視覺信息;系統2擁有強大場景理解和語言解析能力,負責解讀複雜指令、識別環境要素,並制定行動規劃。雙系統架構還在模塊化迭代能力方面頗具優勢。二者可獨立優化,無需重新調整整體模型。

國內玩家智元機器人則於2025年9月宣佈全面開源其通用具身基座大模型GO-1,該模型採用了創新的ViLLA架構,是全球首個採用該架構並開源的通用具身智能模型。ViLLA架構的全稱為Vision-Language-Latent-Action,能夠通過引入隱式動作標記,有效彌合圖像、文本輸入與機器人最終動作執行之間的語義鴻溝,使機器人能夠更準確地理解人類指令並轉化為精細動作。

此外還有美國的Physical Intelligence和Skild AI等新玩家,正對世界模型這一前沿領域進行探索,旨在讓機器人構建一個內在的物理世界模型,從而能夠預測自己行動的結果。

03

挑戰依舊頗多

機器人行業已開始構建系統化的技術發展框架。

類比L1至L5的自動駕駛分級體系,智元機器人提出了G1至G5的具身智能技術路線圖。據海克財經瞭解,G1級針對特定場景定製,缺乏跨場景遷移能力;G2級則能洞察多場景任務,結合大語言模型實現有限泛化;G3級轉向端到端數據驅動,在架構層面實現範式轉換;G4級引入通用操作大模型與仿真數據,顯著提升複雜任務表現;而G5級作為長期目標,將實現從感知到執行的完全端到端自主操作。

在機器人技術邁向更高水平的過程中,泛化是極為重要的挑戰。

所謂泛化,指機器人能夠在不同場景中靈活執行多種任務,無需針對每個新場景重新訓練或調整。就目前來看,機器人在特定環境下熟練掌握的技能,難以有效遷移到新場景、新任務或新對象上。它或許可以在實驗室環境中精準完成抓取動作,但只要更換一個不同形狀的杯子,或改變光照條件,其性能就會顯著下降甚至完全失效。

這一挑戰的根源在於現實世界的無限複雜性。真實環境是開放且動態變化的,物體的形狀、材質、擺放角度,以及光線、背景干擾等因素的組合幾乎是無窮盡的。人類無法為所有可能性預先編程,也難以收集覆蓋所有邊緣情況的訓練數據。面對一個反光強烈的桌面、突然出現的寵物,或是形狀特異的日常物品,機器人操作的準確性便會大幅度降低。這意味著真正意義上的自主智能還為時尚早。

被很多網友揶揄的北京亦莊機器人馬拉松賽事即是一例。2025年4月,該人形機器人馬拉松賽事聚集了知名機器人及智能製造生態企業超過300家,參賽機器人需要工程師團隊全程跟隨,負責更換電池、處理失衡等突發狀況。比賽視頻顯示,有的機器人跑著跑著平地摔倒;有的機器人顫顫巍巍,走不出直線;有的機器人甚至直接把頭部摔掉了。

而1X公司Neo機器人的相關視頻展示了所謂家用機器人的現有水平。Neo完成從3米外冰箱取水的基本操作耗時超過1分鐘,人類完成同樣任務僅需十幾秒。用戶無法通過“請幫我收拾房間”這樣的自然指令讓機器人理解並執行這套複合任務。1X公司坦誠展示了遠程操作員的存在,說明當前機器人尚未突破自主應對開放環境的核心技術瓶頸。

機器人訓練數據的獲取與使用也是亟待解決的重點問題。

如果採用虛擬仿真環境生成訓練數據,機器人就必須面對Sim-to-Real Gap(仿真與現實差距)的問題。虛擬世界中的物理參數、傳感器噪聲與環境交互難以完全還原真實場景的複雜性,導致在仿真中表現優異的算法遷移至實體機器人時出現明顯性能衰減。

如果完全依賴在真實環境中採集數據,則面臨高昂的時間成本與硬件損耗,規模化推進存在現實阻力。比如特斯拉,就選擇整合自有的Dojo訓練中心,讓Optimus人形機器人團隊放棄傳統的動作捕捉技術,轉而採用純視頻學習方法,通過讓機器人觀察人類執行任務的視頻錄像,自主提煉行為模式並生成操作策略。

儘管機器人技術仍面臨諸多挑戰,但具身智能作為科技前沿的核心方向,發展浪潮已不可阻擋。在這一新興賽道,國內企業積極佈局並已取得顯著進展,展現出快速跟進的態勢。

政策層面同樣已釋放出明確支持信號。2025年3月,國務院發佈的政府工作報告中明確提出,國家將以培育壯大新興產業、未來產業作為重點工作方向。報告首次將具身智能與生物製造、量子科技、6G等並列納入未來產業培育範疇,具身智能發展由此上升至國家戰略層面。北京、杭州等地也都圍繞具身智能及機器人產業發佈了針對性政策文件,旨在加速技術突破和產業集聚。

就目前來看,機器人演進與智能手機產業的發展路徑極為相似。早期各家廠商各自為戰,技術處於路線分化的探索階段,逐步走向關鍵突破點。正如智能手機的“iPhone時刻”重新定義了移動終端的形態與生態,機器人領域也將在未來迎來屬於自己的臨界點——當某項技術或產品以超越用戶預期的體驗出現時,將迅速推動行業標準的統一與生態的成型。

這一突破將不僅僅是技術參數的提升,更是用戶體驗的根本性變革。在AI領域,這更像橫空出世的ChatGPT,將AI從實驗室概念轉化為生活的日常。量產只是漫長征程的第一步,技術的加速度已露端倪,科幻作品中的智能機器人走進尋常百姓家的那一天,離我們或已不遠。

本文來自微信公眾號“海克財經”,作者:許俊浩,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論