具身智能苦等“ChatGPT時刻”

Fast Reading

  • 大模型的擴散幾乎不依賴新增物理基礎設施:算力集中在雲端,終端只是入口。具身智能則完全不同,它是一個集硬件、算法、環境感知與運維體系於一體的物理系統。
  • 當前大多數機器人雖已有很大進步,但還是“侷限在一個工作臺上”,難以跨空間、跨模態完成連續複雜任務。
  • 對具身智能而言,“ChatGPT時刻”更像一個外借的隱喻,而非可複製的路徑。如果說大模型證明了算法的爆發力,那麼具身智能考驗的,則是整個產業系統的耐力。

在人工智能的諸多分支中,具身智能是近一年間被高頻提及的方向之一。

從工業機器人到服務機器人,從自動駕駛到人形機器,各條技術路線每隔一段時間就會被寄予一次“通用智能入口”的期待。

但與算法驅動的軟件革命不同,它始終被現實世界的摩擦力拖慢節奏。

如果只看公開視頻,具身智能的公共敘事幾乎被同一組類似的畫面佔據:機器人跑得更穩了,抓得更準了,動作更連貫,任務更復雜。融資在加速,模型在迭代,具身智能似乎正處在一條確定無疑的上升曲線。

成功被循環播放,失敗被剪掉——在實驗室之外,另一種敘事同時存在:部署成本、穩定性、維護複雜度,仍在反覆拉長商業化的時間表。

2月10日,原力靈機的首次技術開放日在北京中關村國家自主創新示範區展示中心舉行。

原力靈機發布了三款核心產品:具身原生大模型 DM0、具身原生開發框架 Dexbotic 2.0、以及具身原生應用量產工作流 DFOL。這也是原力靈機成立近一年來,公司核心團隊第一次集體公開亮相。

在當天的“Physical Al Next 圓桌論壇”上,來自產、學、研的五位嘉賓花了約一半的時間,討論一個問題:

具身智能的ChatGPT時刻何時到來?

具身智能的ChatGPT時刻——這是一個混合了技術突破、產品體驗與商業想象的複合概念。它既指模型能力的躍遷,也暗含一種期待:像ChatGPT一樣,被非技術用戶快速理解、低成本使用,並形成規模化擴散。

它帶著某種技術樂觀主義的興奮。畢竟,大模型在ChatGPT發佈後迅速從實驗室走向全球數億用戶,完成了一次清晰可辨的躍遷。

人們自然期待,當人工智能擁有了身體——能行走、抓取、操作物理世界的實體——是否也會迎來類似的爆發點?

ChatGPT的成功,在於它提供了一種使用成本低、使用結果高度穩定且可重複驗證的體驗:任何人打開瀏覽器,輸入一句話,幾秒內就能獲得輸出。這種“即開即用”的特性,使其迅速成為通用工具。

更重要的是,大模型的擴散幾乎不依賴新增物理基礎設施:算力集中在雲端,終端只是入口。對產業來說,這是一次典型的“輕資產躍遷”。

具身智能則完全不同。它是一個集硬件、算法、環境感知與運維體系於一體的物理系統。

北京智源人工智能研究院院長王仲遠認為,即便模型能力在提升,也還遠沒有到具身智能的ChatGPT時刻。“尤其當具身智能的模型和硬件真機部署之後,我們發現離真正希望的大規模應用還是有比較大的gap。”

這個差距,源於物理世界固有的不確定性——地面是否平整、光照是否有變化、零部件是否存在微小公差、傳感器是否會老化……任何一個變量都可能導致任務失敗。

這也是為什麼,在當前階段,具身智能還仍停留在“可演示”而非“可大規模複製”的狀態:一次成功,並不等於系統性成功。

更關鍵的是,同一臺機器人,在不同時間、不同地點的表現可能截然不同。這意味著,它無法像ChatGPT那樣,為所有用戶提供統一、可預期的體驗。而“時刻”的本質,恰恰依賴於這種集體可感知的突變。

清華大學電子工程系長聘教授汪玉認為,當前大多數機器人雖已有很大進步,但還是“侷限在一個工作臺上”,難以跨空間、跨模態完成連續複雜任務。

他甚至提出一個顛覆性設想:未來的住宅設計,或許需要加入“機器人適配”維度。也就是說,與其“苛求”機器人適應人類混亂的生活環境,不如讓建築和基礎設施主動為機器優化。

雪豹財經社認為,在工業史上,這種路徑並不陌生——流水線、電梯、自動門,都是先改變空間,再釋放自動化價值。具身智能或許也需要類似的“環境工程”。

汪玉的觀點也揭示了大模型和具身智能的一大不同:大模型運行在高度標準化的數字世界,而具身智能卻要闖入一個為人類而非機器設計的物理世界。前者是規則清晰的棋盤,後者是充滿噪聲的曠野。

究竟該如何定義ChatGPT時刻?

在階躍星辰創始人、CEO姜大昕看來,一個標誌性的東西就是零樣本。“零樣本去做泛化,給它任何一條指令,即使以前沒有見過,它也可以回答出問題,這和原來的自然語言處理是完全不一樣的,這是為什麼ChatGPT時刻大家覺得非常興奮。”

如果對比自然語言和具身智能,姜大昕覺得,具身智能的“ChatGPT時刻”會更加困難一些。他進一步解釋稱:具身智能的泛化涉及場景、任務、目標等多個維度,在哪個維度上定義“突破”,本身就缺乏共識。

單純技術維度的突破,並不必然等價於產品或產業維度的拐點。這種錯位,正是“ChatGPT時刻”在具身智能領域被反覆討論、卻難以實現的原因。

當連“成功”的標準都無法統一,“時刻”自然淪為模糊修辭。

真正貼近商業落地的創業者,正在轉向更務實的定義。原力靈機聯合創始人、CEO唐文斌心中的具身智能ChatGPT時刻,是它變得有用、可信賴,並能夠在投資回報率(ROI)上算明白。

唐文斌坦言,“雖然行業非常火爆,繁花似錦,但我們實際上整個(具身)智能的能力還在蹣跚學步的階段。”

星海圖創始人、CEO高繼揚則從產業鏈角度指出,大模型是“模型即產品”。大語言模型的終端是手機、電腦,渠道是社交媒體的傳播。模型好了,整個商業化、產業化的鏈條馬上就具備了。而具身智能的鏈條極長,從供應鏈、整機組裝到數據閉環、售後服務等,算法反而是傳播週期較短的一環。

這意味著,具身智能的商業化節奏,更兼有製造業的特性:資本回收慢、失敗成本高,任何一環掉鏈子,都會放大整體風險。單一技術的突破,很難撬動整個系統的商業化進程。“如果從業務產線的角度來說,具身智能的ChatGPT時刻,是我們真的看到它在某些限定範圍內具備商業價值的一個時刻。”高繼揚說。

對具身智能而言,“ChatGPT時刻”更像一個外借的隱喻,而非可被複制的路徑。

具身智能真正的分水嶺,或許並不表現為一次全民圍觀的技術奇蹟,而是某一天,它在工廠、倉庫、園區裡悄然變成“離不開但不被討論”的存在。

但在這個終局來臨之前,它的成熟將更像基礎設施的演進——緩慢、無聲,卻不可或缺。

如果說大模型證明了算法的爆發力,那麼具身智能考驗的,則是整個產業系統的耐力。

在這場沒有“神蹟”的長跑中,勝出者或許不是算法最炫酷的那一家,而是最懂供應鏈、最能跑通真機閉環、最願意沉入具體場景的那一方。

本文來自微信公眾號“雪豹財經社”(ID:xuebaocaijingshe),作者:曹全景,編輯:黃運濤,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論