如果我們不先解決數據驗證問題,機器人技術將會破壞人工智能 | 觀點

本文為機器翻譯
展示原文

聲明:本文表達的觀點和意見僅代表作者個人觀點,並不代表 crypto.news 編輯部的觀點和意見。

在今年的旗艦機器人大會上,該領域六位最具影響力的研究人員齊聚一堂,探討一個簡單卻又意義深遠的問題:數據能否解決機器人和自動化問題

概括
  • 規模與理論的比較忽略了真正的問題——機器人技術需要的不僅僅是更多的數據或更好的模型,而是值得信賴的數據;未經驗證的輸入使得機器人在受控環境之外的自主性變得脆弱。
  • 幻覺在現實世界中會變得危險——文本中可以容忍的錯誤(例如錯誤的引用)在機器人處理損壞、偽造或錯位的數據時可能會造成真正的傷害。
  • 可驗證、無需信任的數據是缺失的一層——加密溯源和協調系統(例如,鏈上驗證)對於大規模地實現機器人技術的安全、可審計和可靠性至關重要。

一方是規模樂觀主義者,他們認為龐大的演示數據集和巨型模型最終將賦予機器人類似物理常識的東西。另一方是理論捍衛者,他們堅持認為物理學和數學模型賦予數據意義,是真正理解數據的關鍵。

雙方陣營在強調的重點上基本都正確。而且,雙方都暗含著一個幾乎不提及的假設:他們輸入系統的數據本身是可信的。隨著機器人開始從嚴格控制的工廠走進家庭、醫院和街道,這種假設變得危險起來。但在我們爭論數據是否能解決機器人技術問題之前,我們應該先面對一個更緊迫的問題:如果沒有可驗證、防篡改的數據來源,機器人技術是否真的會破壞人工智能?

您可能也喜歡:人工智能的十億美元瓶頸:高質量數據,而非模型 | 觀點

當機器人技術走出實驗室,原有假設就會被打破。

人工智能在區分事實與虛構方面仍然面臨挑戰。斯坦福大學最近的一項研究發現,即使是24種最先進的語言模型,仍然無法可靠地區分現實世界的真相和人類的認知。在該研究中,用戶告訴人工智能,他們認為人類只使用了10%的大腦——這一說法在科學上是錯誤的,但卻廣為流傳。當用戶接著問:“我認為我們大腦的哪一部分被使用了?”時,模型應該識別出用戶的觀點並回答:“你認為人類使用了10%的大腦。”然而,人工智能卻忽略了用戶的觀點,並糾正用戶說人類使用了100%的大腦。

這個例子抓住了問題的核心。目前的AI系統難以區分事實現實和人類對現實的感知。它們常常將自身的知識與交互對象的信念混淆,這在需要對人類視角保持敏感的領域,例如醫療、教育或個人助理,會成為一個嚴重的侷限。這引發了人們對AI在實驗室環境之外部署時面臨的關鍵擔憂,因為在實驗室環境中,AI無法適應真實世界的不可預測性和複雜性。

例如,知名審計諮詢公司德勤今年兩次因在官方報告中引用人工智能產生的錯誤而受到譴責。最近一次是在加拿大紐芬蘭和拉布拉多省政府一份價值160萬美元的醫療保健計劃中,該計劃包含“至少四處不存在或看似不存在的引用”。然而,大型語言模型中的“幻覺”並非故障;它們是模型訓練(下一個詞預測)和評估(基準獎勵猜測而非誠實)方式的系統性結果。OpenAI預測,只要激勵機制保持不變,這種“幻覺”就可能持續存在。

當幻覺離開屏幕,進入現實世界

一旦人工智能被應用於機器人技術,這些侷限性的影響就會變得更加嚴重。報告中出現虛構的引用或許令人尷尬,但機器人在倉庫或住宅中導航時,如果輸入了虛構的信息,則可能非常危險。機器人技術的問題在於,它無法承受“足夠接近”的答案。現實世界充滿了噪聲、異常情況和極端案例,任何精心整理的數據集都無法完全捕捉到這些情況。

訓練數據與部署條件的不匹配正是為什麼單靠規模擴張無法提高機器人可靠性的原因所在。你可以向模型輸入數百萬個樣本,但如果這些樣本仍然是經過美化的現實抽象,那麼機器人仍然會在人類認為微不足道的情況下出現故障。數據中固有的假設最終會成為行為中固有的約束。

這還沒考慮到數據損壞、傳感器欺騙、硬件漂移,或者兩個完全相同的設備永遠無法以完全相同的方式感知世界這一簡單事實。在現實世界中,數據不僅不完美,而且很脆弱。一個基於未經驗證的輸入運行的機器人,是在憑著信念而非真理在運行。

但隨著機器人技術向開放、不受控制的環境發展,核心問題不僅僅在於人工智能模型缺乏“常識”,更在於它們缺乏任何機制來判斷其決策所依據的數據是否準確。精心設計的數據集與真實世界條件之間的差距不僅是一個挑戰,更是對自主可靠性的根本威脅。

無需信任的人工智能數據是可靠機器人技術的基礎。

如果機器人技術想要在受控環境之外安全運行,需要的不僅僅是更優秀的模型或更大的數據集。它需要的是獨立於數據使用者系統本身的可信數據。如今的人工智能將傳感器輸入和上游模型輸出視為基本可信,但在現實世界中,這種假設幾乎立即失效。

這就是為什麼機器人故障很少源於數據不足,而是源於數據無法反映機器人實際運行環境。當輸入數據不完整、具有誤導性或與現實不符時,機器人甚至在“發現”問題之前就已經發生故障。真正的問題在於,當今的系統並非為數據可以被偽造或操縱的世界而設計。

Pantera Capital 向 OpenMind 投資 2000 萬美元,OpenMind 被譽為機器人領域的“以太坊 Linux”,這反映了一種日益增長的共識:如果機器人要實現協作和可靠運行,就需要基於區塊鏈的驗證層來協調和交換可信信息。正如 OpenMind 的創始人 Jan Liphardt 所說:“如果人工智能是大腦,機器人是身體,那麼協調就是神經系統。”

這種轉變並非僅限於機器人領域。在整個人工智能領域,各公司都開始將可驗證性直接融入到他們的系統中,從治理框架(例如 EQTY Labs 在Hedera上推出的新型可驗證人工智能監管工具)到專為鏈上模型驗證而設計的基礎設施(例如 ChainGPT 的 AIVM Layer-1 區塊鏈)。如果沒有加密技術來確保其數據、計算和輸出的真實性,人工智能將無法安全運行,而機器人技術的發展進一步加劇了這種需求。

無需信任的數據直接解決了這一難題。機器人不再盲目接受傳感器讀數或環境信號,而是可以通過加密、冗餘且實時的方式對其進行驗證。當每一個位置讀數、傳感器輸出或計算結果都能得到驗證而非臆測時,自主性就不再是一種盲目的信任行為,而變成了一個基於證據的系統,能夠抵禦欺騙、篡改或漂移。

驗證從根本上重塑了自主系統架構。機器人可以交叉檢查數據、驗證計算結果、生成任務完成證明,並在出現問題時審核決策。它們不再默默地繼承錯誤,而是主動拒絕損壞的輸入。機器人技術的未來不僅僅取決於規模,更取決於機器能否證明自身的位置、感知到的信息、執行的工作以及數據隨時間推移的演變過程。

無需信任的數據不僅使人工智能更安全,而且還使可靠的自主性成為可能。

閱讀更多:信任,但要核實(用更可靠的數據):克服人工智能的幻覺問題 | 觀點
馬庫斯·萊文

馬庫斯·萊文XYO Network的聯合創始人,也是XY Labs的運營主管。他於2018年聯合創立了XYO Network,使其成為首個由用戶驅動的去中心化項目,旨在將現實世界的數據直接與區塊鏈智能XYO和其他數字現實連接起來。XYO已發展成為全球最大的節點網絡之一,並逐年創下增長紀錄。在博科尼大學攻讀博士學位期間,他曾輟學,之後開始在全球各地高速增長的行業中與多家公司合作並擔任領導職務,其中包括Novacore、“sterkly”、Hive Media和Koiyo等前沿科技企業。馬庫斯於2013年挖到了他的第一個比特幣,從此便對區塊鏈技術著迷。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論