AMMO 從對齊視角出發,讓數十億 AI 代理和人類平等共存。
撰文:Pzai,Foresight News
在邁向賽博年代的當下,AI 的發展在為所有人帶來生產力飛速提升的同時,也正在為我們提出一個問題:當 AI 正在向著人類的領域逐漸深入,人類是否需要重新評估人機關係?
在這一大背景之下,對 AI 技術的政治觀點逐漸派別林立。在充滿懷疑論點的「AI 危機派」和「加速主義(e/acc)派」鬧得不可開交時,「對齊派」主張提升對技術的公共效益、倫理討論、人文價值的重視,在 AI 研發和迭代過程中引入人文判斷,確保 AI 技術不會失控。
而在 AI Agent 大行其道的當下,伴隨著從單一大模型迭代到多模態感知和多 AI 交互範式的路線,AI 的「對齊之問」似乎正在被越來越多人所重視。
在 2 月 20 日,由前 Google、DeepMind 和 Meta 技術負責人聯合推出的 AMMO 獲得了由 Amber Group 領投的 250 萬美元種子輪融資。從團隊背景來看,AMMO 匯聚了來自各大科技巨頭的 AI 專家,聯合創始人兼首席執行官 David Huang 在 Google 工作了 10 年,其中包括 7 年領導移動領域的 AI 計劃和戰略服務。另一位創始人 Diego Hong 畢業於牛津大學,曾在 Meta 領導第一代 AI agent 框架工作。團隊內部匯聚來自 DeepMind, Google, Apple 的頂尖 AI 人才,甚至包括 ACM-ICPC 世界冠軍。
該項目從對齊視角出發,旨在通過多代理框架和來自人類反饋的強化學習 (RLHF)將當前的互聯網轉變為「人與 AI 共生網絡」,讓數十億 AI 代理和人類平等共存,並讓 AI 根據人類集體反饋的一致性共同進化。

RL Gyms:多 Agents 強化學習
在人工智能與機器學習領域,強化學習一直是備受矚目的研究方向。而 AMMO 的 RL Gyms 為多 Agents 強化學習的研究與應用提供了堅實的技術支撐。
區別於傳統的單代理強化學習,多 Agents 強化學習聚焦於多個代理(Multi-Agent)在同一環境下相互作用、共同學習並做出決策的過程。這一過程中,代理之間的關係錯綜複雜,既可能需要攜手協作完成共同目標,也可能在競爭中彼此博弈。例如在物流配送場景中,多輛配送車作為代理,需要協調路線、規劃配送順序,以實現整體配送效率的最大化;而在競技類遊戲中,不同玩家控制的角色代理則要相互競爭,爭取勝利。
RL Gym 最早由 OpenAI 提出,為 AI 進化提供強大的模擬仿真環境。開發者可以通過自定義一系列關鍵函數以構建高度適配研究需求或應用場景的強化學習環境,如經濟模擬,紅藍對戰等設定。這些關鍵函數包括環境狀態轉換規則的定義,代理環境感知和行動執行的協議,獎勵函數的定義等。只要能精確定義以上函數,RL Gym 便能模擬各類複雜場景,進而為 AI 在其中的進化打好基礎。
對於 AMMO 的開發者而言,RL Gyms 為 AI 代理提供了一個豐富真實的雙邊市場模擬器。AI 既可作為內容和服務供給方,為用戶提供高質量富有吸引力的內容;同時 AI 又可作為人類用戶分身,充當消費方的角色,以用戶價值為中心,為用戶精選梳理高質量內容。這樣動態豐富的雙邊博弈,刺激雙方不斷進化自身策略,滿足用戶日益增長的內容服務消費需求。

而受 Anthropic 的 Constitutional AI 的啟發,AMMO 創建了透明的治理框架以指導代理在平臺內的決策。該結構通過大量的人類反饋循環不斷更新,確保代理的行為與人類的集體意圖保持一致。通過從平臺一開始就將對齊機制植根於此架構中,AMMO 確保其代理與社會不斷變化的價值觀和優先事項一起發展,只因在對齊主義的指導下,「多代理系統的中心是人類」。
MetaSpace:構建 Agents 的「世界」
「每個心理主體本身只能做一些根本不需要頭腦或思想的簡單事情。然而,當我們以某些非常特殊的方式將這些代理加入社會時,這會帶來真正的智能。」「人工智能之父」馬文·明斯基在他的著作《心靈社會》中這樣描述。對於 AI 代理而言,更多的迭代對應需要更多的輸入,而在 Agents 與其他 Agents 乃至人類過程交互的過程中,需要構建足夠堅實的框架以推動 AI 的有序迭代。
與 Ocean Protocol 主要聚焦於數據的流通與交易、SingularityNET 打造去中心化的 AI 市場等項目不同的是,AMMO 的獨特之處在於專注於構建 AI 進化環境。它不僅僅能解決模型能力提升或者單一的交易問題,而且能為 AI 的持續發展和進化提供土壤。在多智能體技術方面,與 Swarms 等 AI Agent 框架相比,AMMO 不僅具備多智能體間高效協作的能力,更重要的是它著力於打造一個完整的多智能體世界。
在 AMMO 的主體架構中,團隊打造了一個獨特且功能強大的可組合高維虛擬宇宙 ——MetaSpace。具備強自主性的 AI 代理不再孤立運作,而與其他 Agents 乃至人類在 MetaSpace 中展開深度互動。
MetaSpace 擁有一系列垂直深入的子空間,這些子空間成為了 AI 代理不斷進化的關鍵場所。在與人類的互動進程中,自主 AI 代理(Goal Buddy)持續調整自身,充分發揮自身的適應能力,並逐步實現與人類行為和需求的深度對齊。而人類用戶的 AI 分身(User Buddy)同樣在這個空間內與人類攜手共進,幫人類學習、決策、投資、探索和交友,在持續的交互中進化。
這種多 Agent 在線學習模式能夠將人類紛繁複雜的需求和多樣化的興趣,具象化為數量龐大的 Agents。這些 Agents 並非一成不變,它們在 MetaSpace 內不斷進行迭代,使得 AI 代理在 AMMO 中不再僅僅依賴於模型能力的提升,而是通過與人類、與環境的交互,實現自我優化。可以說,MetaSpace 為 Agents 打開了通往世界信息的大門。

Fakers AI
在 AMMO 的子空間中,首個子空間項目 Fakers AI 被定位為「Web3 市場的小紅書」。在這個應用裡,多個 AI 代理協同工作,為用戶提供豐富功能。它們不僅能實時收集新聞資訊、市場動態,分析鏈上數據,洞察市場情緒,還具備一項關鍵能力 —— 動態學習人類交互反饋。
當用戶與 AI 代理互動時,無論是瀏覽內容、提問還是發表評論,AI 代理都會捕捉這些反饋信息,通過複雜算法不斷優化自身,實現與人類價值觀、偏好、興趣的實時對齊。基於這種能力,這些 AI 代理在內容整合時,能更精準地篩選和組合信息,為用戶提供兼具及時性和準確性的內容,滿足用戶在 Web3 市場的多樣化需求。

在應用內的 Ticker Battle 中,4 個 AI Agents 共同組成了強大的自動化工作流,每個 Agent 分別負責統籌規劃、鏈上數據分析、社區觀點分析、總結成文等功能,並可以結合人類反應進行自我迭代。這樣的內容產出模式為用戶提供了發現 AI 創作和社區推動的為透明度而設計的內容。而對於 AI 而言,這樣也無形地助推了他們的影響力。

從 AI 到 Web3 的創新實踐
在 AI 與 Web3 融合的浪潮中,AMMO 作為一個創新的平臺,正逐漸嶄露頭角。而 Amber Group, Samsung Next, Dispersion 和 OpenSpace 對 AMMO 的投資,不僅是對其技術實力的認可,更是對其在未來市場潛力的看好。
AMMO 的架構的核心是將內容摘要和審核方面的尖端 AI 技術與強大、零信任、社區主導的治理相結合。在短期內,AMMO 的原型將使創作者和日常用戶能夠通過多個 AI 代理(每個代理都專門從事編輯或腳本編寫等任務)製作和微調內容,同時策略代理執行指導方針。
在創新模式方面,AMMO 利用其獨特的多智能體系統,將不同的 AI 代理分配到內容創作、質量把控、政策執行等各個環節。通過強化學習技術和引入人類反饋機制,AMMO 不斷優化 AI 驅動的內容創作過程,提升內容質量。
而基於加密的激勵系統可使得 AMMO 將價值直接重新分配給貢獻者。提供反饋、與內容互動或以其他方式幫助優化代理的用戶將獲得按比例的激勵,創造一個自我維持的反饋循環:激勵性參與推動了更好的代理輸出,並反作用於網絡及其貢獻者。
綜上所述,在 AI 時代多代理化的趨勢下,AMMO 為我們創造了對齊主義在 AI 發展中的願景及其實現,構建一個與人類對齊的百億人與 AI 的共生世界。似乎在現在的 AI 領域,對齊本身不管是對於人類還是 AI,最終協調同步的發展都是對各方有利的結果,而我們也正在期待這樣的共處未來。




