Physical Intelligence 引進 MEMS 架構，為機器人提供執行現實世界任務所需的內存

本文為機器翻譯

展示原文

Physical Intelligence 引進 MEMS 架構，為機器人提供完成現實世界任務所需的內存

多年來，真正能幫上忙的家用機器人的夢想似乎近在咫尺。機器人已經可以執行諸如「清洗煎鍋」、「摺衣服」或「做三明治」之類的指令。在實驗室環境下，這些系統展現了令人印象深刻的靈巧性和精確度。然而，儘管機器人基礎模型取得了快速發展，但一個根本性的功能卻一直缺少：記憶。

能夠執行單一任務的機器人與能夠完成一項工作的機器人截然不同。清潔整個廚房、烹飪一頓飯或準備食譜所需的食材，需要的不僅僅是零散的技能，還需要連貫性——記住已經完成的工作、接下來需要完成的工作以及所有物品的位置。如果沒有這種連貫性，即使是最強大的機器人也會變得出乎意料地無能。

物理智慧領域的研究人員現在正試圖用一種名為多尺度具身記憶（MEM）的新架構來解決這一挑戰——該系統旨在賦予機器人短期記憶和長期記憶，以便它們能夠執行持續數分鐘而不是數秒的任務。

研究結果暗示了一個重要的問題：機器人技術的未來可能更多地取決於更好的認知架構，而不是更好的機械手。

現代機器人已經擁有相當豐富的運動技能。它們可以抓取易碎物品、操作工具，並在雜亂的環境中穿梭。但如果讓機器人打掃整個廚房——擦拭檯面、收納食品雜貨、洗碗、整理餐具——它們的局限性就會很快顯現出來。

問題不在於技能本身，而是如何協調這些技能。複雜的任務需要持續的感知能力。機器人必須記住它已經打開過哪些櫥櫃，鍋蓋放在哪裡，或是否已經洗過碗碟。它還必須追蹤移出視野的物體，並在執行新動作的同時保持對環境的感知。

人類認知能夠毫不費力地做到這一點。而機器直到最近才開始具備這種能力。要儲存機器人幾分鐘甚至幾小時內觀察到的每一個現象，在計算上是不可行的。但丟棄這些資訊會導致混亂的行為——重複犯錯、遺忘步驟，或做出與先前決策相矛盾的行為。在機器人研究中，這種挑戰有時被稱為“因果混淆”，即係統錯誤地解讀過去的事件並強化錯誤的行為。

結果：機器人雖然在簡短的演示中看起來令人印象深刻，但在完成現實世界的任務時卻舉步維艱。

用於物理智能的記憶系統

MEM架構透過引入多層儲存結構來解決這個問題。該系統並非將所有數據平均存儲，而是將存儲分為兩種互補的形式：

短期視覺記憶利用高效的視訊編碼架構捕捉近期的觀察結果。這使得機器人能夠理解運動、跨幀追蹤物體，並記住幾秒鐘前發生的事件——這對於翻轉烤起司三明治或清洗餐具等精確操作至關重要。

同時，長期概念記憶以自然語言儲存任務進度。機器人不會無限期地記住原始視覺數據，而是會寫下簡短的文字「筆記」來描述發生的事情——例如「我把鍋子放進了水槽」或「我從冰箱裡拿出了牛奶」。

這些摘要會成為機器人推理過程的一部分。實際上，機器會建構出自己對任務的敘述。系統的推理引擎隨後會同時決定兩件事：下一步要執行什麼操作以及哪些資訊值得記住。這種組合使得該模型能夠追蹤長達十五分鐘的任務——遠遠超過以往大多數機器人演示的時間。

MEM技術最引人入勝的功能之一是情境適應。機器人會犯錯，這是不可避免的。但大多數機器人系統會不斷重複這些錯誤，因為它們沒有失敗記憶。

簡單的實驗就能明顯看出差異。在一個測試中，機器人試圖拿起一根扁平的筷子。如果沒有記憶功能，機器人會重複嘗試同樣的抓取方式，但都失敗了。啟用記憶功能後，機器人會記住失敗的嘗試，並嘗試不同的方法——最終成功。

另一個例子是打開冰箱門。僅憑視覺數據，機器人無法立即判斷冰箱門該朝哪個方向打開。沒有記憶功能的系統只會一遍又一遍地重複相同的動作。而有記憶功能的機器人會先嘗試一個方向，記住失敗的結果，然後再嘗試另一邊。

這些細微的調整蘊含著深刻的意義：也就是在任務過程中進行學習的能力。機器人不再完全依賴訓練數據，而是能夠即時調整。

研究人員對這套具備記憶功能的系統進行了評估，任務難度逐漸增加。首先是一個相對簡單的挑戰：製作烤起司三明治。這需要短期記憶來掌握時間，同時也要完成一些精細的物理步驟，例如翻麵包和裝盤。

接下來是後勤任務：為食譜取食材。機器人必須記住它已經收集了哪些物品，它們的位置，以及抽屜和櫥櫃是否已關好。最後，它迎來了最具挑戰性的場景：清潔整個廚房。

這意味著要把物品放回原位，洗碗，擦拭檯面，並記錄房間裡哪些部分已經清潔過了。

具有結構化記憶的模型明顯優於沒有結構化記憶的版本，表現出更高的可靠性和任務完成率。

這一差異體現了機器人技術的關鍵轉變。研究人員現在不再優化孤立的動作，而是建立能夠持續執行工作流程的系統。

為什麼說記憶是機器人技術的下一個前沿領域？

MEM 的更廣泛意義在於，機器人技術正步入一個新階段。幾十年來，該領域一直專注於感知和控制：幫助機器感知世界並操控物體。而近年來，大型多模態模型顯著提升了機器人理解指令和執行複雜運動行為的能力。

但隨著這些能力的成熟，瓶頸已經轉移。下一個挑戰是認知連續性——使機器人能夠在長時間運行中保持目標一致性。像MEM這樣的記憶系統為這種連續性提供了支撐。機器人不再是逐一做出反應，而是可以維護一個關於自身行為、決策和環境的內在敘事。正是這種敘事使得複雜的行為得以湧現。

如果這種方法繼續發展下去，其影響將遠遠超出廚房清潔。未來的機器人可能需要遵循持續數小時甚至數天的指令。想像一下，你告訴智慧家居助理：

“我晚上6點到家——請做好晚飯，並在周三打掃房子。”

執行這樣的請求需要解析冗長的指令、規劃子任務、記住進度，並在出現問題時進行調整。

要長時間保存每次動作的原始視訊記錄是不可能的。因此，機器人很可能會依賴層級式記憶系統，將經驗壓縮成越來越抽象的表徵。

MEMS是邁向這種架構的早期步驟。它表明，提升機器人表現的關鍵可能不在於更強大的馬達或更靈敏的感測器，而是更強大的記憶能力以及對記憶內容進行推理的能力。如果機器人最終能夠記住它們正在做的事情，它們或許也最終能夠完成任務。

文章《物理智慧引入MEMS架構，為機器人提供執行現實世界任務所需的記憶體》最初發表於元宇宙 Post 。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論