多智能體系統——當前形勢與展望

作者:Jinming 來源:HashKey Capital 翻譯:善歐巴,金色財經

引言

人工智能代理(AI Agent)的概念,指的是能夠理解其環境並代表用戶或機器自主執行行動以實現其目標的智能軟件系統,早在 20 世紀 80 年代就已提出。然而,直到 2010 年代,隨著深度學習和大型語言模型(LLM)的興起,展示了它們理解和生成類人響應的能力,這一概念才開始受到關注。

如今,LLM 已成為我們生活中不可或缺的一部分,像 ChatGPT 這樣的產品在全球擁有超過 1550 萬付費用戶,隨著 OpenAI 推出更智能的推理模型,需求必將進一步增長。ChatGPT、Claude 和 DeepSeek 等 LLM 的廣泛應用為代理經濟的自然發展鋪平了道路。代理比 LLM 更復雜,它被定義為一個由單個模型或多個模型組成的系統,以及一個帶有工具集並定義代理身份的框架(圖 1)。

配備角色、工具包的代理可以接收任務,分析、處理並代表用戶自主執行行動,儘管有時需要人工參與提供反饋並通過強化學習進行學習。代理本質上是可組合的,隨著代理變得更加專業化和技術成熟,代理系統的人工參與部分可能會退居次要地位,而代理之間的通信將成為簡化複雜工作流程和釋放效率提升的重點。隨著基於代理的框架不斷進步,我們預計通過集成區塊鏈(一種基於透明度、去中心化和激勵一致的技術),將在各種應用中獲得指數級的收益。

此外,通過利用區塊鏈技術的可信、安全和透明的特性,智能合約上的代理可以執行自主錢包交易,因良好行為而獲得代幣激勵,並因對抗行為而受到懲罰。在本報告中,我們將首先探討什麼是多智能體系統以及支持這些系統開發的編排框架,然後瞭解多智能體系統與 Web3 技術之間的協同作用。隨後,我們將探討 Web3 多智能體框架的用例、挑戰和解決問題的努力。

圖 1:代理的組件

vMcZSzrQ192037hldIuF2oOG6i2SdhKsrb9HJE8L.png

多智能體系統

在多智能體系統中,與單智能體系統不同,智能體可以專注於各自的領域並協作,以模擬人類的團隊合作,有效地解決多步驟、複雜的現實世界問題(圖 2)。這增強了基於單個 LLM 的智能體的認知和推理能力,提供了更大的可擴展性和效率。在基於單個 LLM 的智能體中,智能體承擔著從頭到尾完成任務的艱鉅負擔,當任務變得更加複雜和苛刻時,這通常會導致延遲和瓶頸。

在多智能體系統中,通常有一個任務管理器,它定義任務需求,將任務分解為更小的任務,並根據智能體的能力將子任務委派給智能體,從而使多智能體系統更具彈性和適用於大規模企業用例。多智能體系統的協作特性通過讓每個智能體僅存儲與其角色相關的上下文來促進高效的內存管理。由於其分佈式架構,智能體避免了處理龐大的內存負載,從而提高了可擴展性,併為更廣泛的用例打開了大門。

多智能體系統的發展關鍵在於多智能體框架,這些框架使智能體能夠有效地相互通信和協調,以實現既定目標。通過各種多智能體框架、多智能體強化學習(MARL)、模擬環境和改進的智能體編排層,它們為跨各個行業(包括加密行業)的智能體驅動應用程序開闢了令人興奮的機會。下面,我們將研究 Web2 和 Web3 中的一些多智能體編排框架,這些框架通過智能體驅動的工作流程釋放了新的可能性。

多智能體編排框架

多智能體編排框架處理基於 LLM 的智能體的管理,以解決問題。與單個智能體相比,多智能體系統在自動化複雜任務時,在簡化和提高效率方面發揮著重要作用。

圖 2:多代理框架架構

n9WAEJwJ2AJiBLG7vjTfgiBjXHty3x2OyBCrEVf1.png

請注意,由於多智能體框架不斷發展,因此這不是一個詳盡的列表。

AutoGen

AutoGen 是微軟研究院人工智能前沿實驗室設計的開源多智能體框架。它以其模塊化和可擴展的設計促進了多智能體應用程序的開發。AutoGen Core 實現了可以使用 Python 和 .NET 語言編程的消息傳遞和事件驅動智能體。AgentChat API 實現了智能體之間的無縫通信,並構建在 Core API 之上。各種擴展可用,使智能體能夠執行各種功能,例如網頁瀏覽、視頻分析、文件分析以及封裝 Langchain 工具等。基於 AutoGen 多智能體框架構建的 MagenticOne 能夠執行代碼、瀏覽網頁和管理文件等任務。

CrewAI

CrewAI 是一個開源多智能體平臺,它通過明確定義的基於角色的多智能體編排實現高效且無縫的任務自動化。其架構允許具有可配置角色、目標和個性的智能體按順序或並行交互,確保有序的任務執行。為了保持相關性,智能體可以利用支持文本源和結構化數據格式的廣泛知識庫。CrewAI 還提供對 LangChain 和 LlamaIndex 工具的訪問,以及 Portkey 提供的企業級功能,使智能體能夠輕鬆使用外部 API、數據庫和檢索系統。該平臺對開發人員也很友好,支持基於 YAML 的配置,這使得開發人員可以輕鬆配置和部署智能體。

Langroid

Langroid 是一個開源 Python 編程框架,它將多智能體編程作為其核心設計原則,賦予智能體與公民類似的地位。該框架因其簡潔、直觀和可擴展性而受到開發人員的認可,它提供了各種模塊和工具,可以滿足複雜智能體應用程序的需求。默認情況下,智能體充當消息轉換器,並具有 3 種響應器方法:LLM 響應器、智能體響應器和用戶響應器。這些響應器方法共同允許智能體執行功能、生成人類可讀的自然語言響應,並將人類反饋納入其智能體工作流程。圍繞智能體封裝任務使其能夠通過將子任務委派給其他智能體來編排交互。通過 ToolMessage 機制支持 OpenAI LLM 和 LLM 函數調用,智能體可以訪問各種工具和函數。結合與 LanceDB、Qdrant 和 Chroma 等向量存儲的集成,Langroid 的智能體具有持久的對話狀態和向量存儲內存,使其擅長管理複雜的動態場景。

CAMEL

CAMEL 是一個開源多智能體框架,為任務自動化、數據生成和現實世界模擬等廣泛應用提供通用基礎設施。作為 CAMEL 的一部分,社會模塊在多智能體協調中起著至關重要的作用。它包含兩個框架——RolePlaying 和 BabyAGI——旨在管理智能體交互並推動目標導向的結果。其角色扮演、對話導向的方法使其非常適合構建面向客戶的智能體。CAMEL 與各種向量數據庫和 LLM 的集成支持 RAG,併為其智能體提供持久內存,使其非常適合大規模企業應用程序。然而,RolePlaying 框架的成功目前要求開發人員具備有效的提示工程技能和角色設計,這可能會使其對那些沒有強大的編碼和人工智能背景的人不太友好。CAMEL 已經部署了一個人工智能聊天機器人 Eigent Bot,它可以獲取實時信息,支持多模態功能,並利用圖形 RAG 實現更好的上下文理解。

MetaGPT

MetaGPT 是一種元編程多智能體編排框架,它將標準操作程序 (SOP) 編碼為提示序列,並結合明確定義的智能體角色和職責。這種設計有助於緩解智能體間交互帶來的更復雜的幻覺風險。MetaGPT 中的智能體通過定義的輸出格式到一個共享消息池進行通信,而不是進行一對一的對話,從而減少了不相關或丟失的內容。它還實現了可執行的反饋機制,支持自我糾正和審查。MetaGPT 在軟件開發環境中特別有效,在這些環境中,明確定義的角色可以提高代碼質量和任務分配。當根據代碼生成基準進行衡量時,MetaGPT 在 HumanEval 和 MBPP 中取得了顯著的成果,分別為 85.9% 和 87.7%。

LangGraph

LangGraph 是 LangChain 創建者開發的開源智能體框架。它旨在管理複雜的多智能體工作流程,具有模塊化架構,使不同的智能體能夠高效地通信、協調和執行任務。通過使用基於圖的架構來建模智能體工作流程的不同組件之間的關係,LangGraph 促進了動態任務分配、無縫可擴展性以及跨分佈式系統的強大問題解決能力。這種創新方法簡化了狀態管理,適用於需要持久保留上下文的多步驟工作流程。此外,Langchain 模型上下文協議 (MCP) 適配器(一個輕量級包裝器)允許將 MCP 工具輕鬆轉換為 Langchain 工具,供 LangGraph 智能體使用,從而擴展其可用工具集。在多智能體領域,LangGraph 受益於強大的網絡效應,因為它利用了 LangChain 生態系統。

ElizaOS

ElizaOS 可能是最著名的 Web3 多智能體框架,是一個開源 TypeScript 多智能體框架,它嵌入了 Web3 組件,以解決加密行業的入門障礙和可訪問性問題。該框架採用模塊化設計,帶有廣泛的插件集,目前能夠支持一系列模型(即 OpenAI、DeepSeek、Llama、Qwen 等)、平臺集成(即 Twitter、Discord、Telegram、Farcaster 等)以及超過 25 種鏈兼容性(即 Solana、Ethereum、Ton、Aptos、Sui、Sei 等)。它與 GOAT SDK 的集成還使智能體能夠執行各種鏈上操作。ElizaOS 的核心架構由智能體、角色文件、提供程序、操作和評估器組成,它們共同使智能體在執行各種任務時具有持久的內存和上下文感知能力,並從評估器那裡獲取反饋以確保更好的性能。

一個值得注意的例子是 ai16z DAO Fund,它利用 ElizaOS 框架創建了一個自主智能體,可以過濾市場信號並交易各種 meme 幣。在其鼎盛時期,它管理著超過 3600 萬美元的 AUM。

作為 Web3 中最成熟的智能體框架,ElizaOS 智能體框架繼續受到 Web3 開發人員的歡迎,因為它獲得了超過 14K 的 github 星星,並且目前擁有 99 個集成。隨著未來計劃推出智能體啟動平臺,這可以通過為開發人員提供一個無需/低代碼的智能體啟動平臺來進一步激發他們的興趣。

RIG

另一個擁有超過 3K github 星星的流行 Web3 智能體框架是 RIG,一個基於 Rust 的開源智能體框架,它通過提供輕量級核心同時支持高級推理模式(從提示鏈到條件邏輯和並行任務執行)而脫穎而出。RIG 框架在支持的 LLM 提供商(OpenAI、cohere、DeepSeek 等)之間提供統一的 API,併為 RAG 實現提供簡化的嵌入和向量存儲支持。還可以創建自定義工具,使該框架可擴展用於基於 LLM 的應用程序。

利用 Rust 的異步功能,多智能體系統可以併發處理多個任務。儘管它目前在 23 個 Web3 原生集成方面落後於 ElizaOS。RIG 背後的開發人員 ARC 已與 Solana 基金會合作,通過向使用 RIG 構建基於 Rust 的智能體的開發人員提供有針對性的贈款來推動該框架的採用。此外,ARC 還推出了其智能體啟動平臺 Forge,該平臺採用與 Virtuals 類似的啟動平臺模型,但目前僅允許列入白名單的團隊訪問該平臺。RIG 和 Forge 啟動平臺的一個值得注意的用例是 AskJimmy 平臺,這是一個多智能體對沖基金,它協調由交易策略庫驅動的智能體群,以便在 Hyperliquid、Drift、GMX 等領先平臺上跨 EVM 和 Solana 無縫執行交易。

G.A.M.E

Virtuals Protocol 團隊開發的 G.A.M.E 框架是一個基於 Python 和 JavaScript 的開源多智能體框架,它促進了鏈上智能體的創建。它與 Web3 庫 GOAT SDK 的集成,為智能體提供了跨各種協議的 200 多個鏈上操作。任務處理通過分層方法完成,其中任務規劃器將任務分解為子任務,並將其委派給協調和通信以交付最終輸出的專業工作智能體。目前,其大多數智能體都圍繞社交媒體平臺和遊戲內環境展開,最著名的智能體是 AIXBT。自推出以來,AIXBT(一個具有自己 X 帳戶的 AI 驅動的鏈上分析影響者)因其分析見解而廣受認可,截至撰寫本文時,擁有超過 49 萬粉絲。

4xckpxm76AnjfFxiiXHqrlJ4iLIB2X6k38jK7axc.png

資料來源:Virtuals Protocol GAME 架構

uAgents

uAgents 是 Fetch.AI 開發的基於 Python 的多智能體框架,它已與 LangChain、Vertex AI、CrewAI 等各種 Web2 框架集成,從而可以在 Fetch.AI 區塊鏈上輕鬆創建和部署自主智能體。創建後,智能體將在 Almanac 智能合約上註冊,允許其他智能體輕鬆查詢該合約並通過其智能體地址和 HTTP 端點識別接收者智能體。加密安全性確保智能體之間的交互保持安全,允許最合適的智能體在不影響安全性的情況下滿足用戶請求。

比較分析(Web2 框架和 Web3 框架)

Mz0KFxgF7Uhi48XBMPFHCSquhamLxBP6aEUwgwOn.png

Wk6B4ARCqwo3q8yRn2dzsINeGYc7QvCbEqiZyRpV.png

iMgyz7yT3dGr0fMJEFZiDKs2QybZtpZBq5GFomVf.png

KKNIcUKqwfxmxxBZhHJICUgnkohXeabkarmMlfoG.png

2IkqET3MjN8pgsdQVKKTWTWmBNwFVyWelpueNiAq.png

Web3 多智能體框架的優勢

儘管 Web2 多智能體框架已經相對成熟並獲得了強大的機構需求,但與 Web3 多智能體框架相比,它們缺乏原生鏈上功能。使用 Web2 工具的開發人員必須附加第三方庫才能與智能合約交互或解析區塊鏈數據,從而引入複雜性和潛在的漏洞。使用 Web3 多智能體框架的開發人員可以受益於這些框架提供的內置鏈上功能,在部署鏈上智能體時提供更無縫的體驗,因為他們可以更專注於設計良好的前端用戶體驗。此外,通過利用區塊鏈和智能合約作為底層基礎設施,鏈上智能體可以受益於加密軌道,例如讓其錢包代表用戶執行鏈上操作並確保激勵一致性。

Web3 多智能體框架的性能指標

9NYzZKd7Mw43xlacfvpG9sAP3erstYd5Ri6WqBGr.png

簡化 Web3 中的工作流程

儘管 Web2 代理框架日益成熟和普及,但代理概念直到 2024 年第四季度才在 Web3 中獲得關注。ElizaOS、Virtuals Protocol 和 RIG 等主要參與者(各自擁有自己的代幣)實現了可觀的市值,凸顯了 Web3 中對 AI 代理的強烈需求,而不僅僅是投機交易。這些代幣市值所反映出的興奮並非毫無根據,因為 Web3 仍在努力實現主流採用。讓區塊鏈上的代理自主執行鏈上操作,具有改變用戶體驗的巨大潛力。除了可以實現的效率之外,Web3 中代理的問題還可以追溯到區塊鏈中 AI 的類似論點,即透明度和可追溯性以及先進的安全功能。代理交易記錄在區塊鏈上,用戶可以輕鬆跟蹤和驗證代理採取的行動。下面,我們重點介紹一些最適合代理採用的關鍵領域。

DeFAI

鏈上交易本質上是複雜的,要求用戶至少對區塊鏈和 Web3 錢包有基本的瞭解。這造成了糟糕的用戶體驗,並且仍然是非加密原生用戶的重要障礙。儘管最近社交登錄已被各種 Web3 錢包提供商廣泛採用,但賬戶和鏈抽象的開發仍然緩慢且有限。用戶在瀏覽 DeFi 格局時仍然需要理解 gas 費用、錢包地址、橋接等概念。相比之下,OpenAI 最近推出的 Operator Agent 僅需要用戶進行簡單的自然語言處理即可執行交易,通過後端代理處理抽象掉用戶必須採取的多個步驟。Web3 也不應該有什麼不同,我們認為將 AI 代理與各種 DeFi (DeFAI) 協議集成可以促進更輕鬆的用戶入門和無縫體驗。

Virtuals Protocol 最近推出了代理商務協議,該協議為代理如何相互通信和交互設定了標準化方法。這種方法引入了涉及請求、協商、交易和評估的 4 個階段的過程。評估器、基於智能合約的託管和加密驗證的引入是該框架的核心功能,可確保交付的交易滿足任務的要求。一旦滿足所有要求,智能合約觸發器將解鎖資金並交付服務,從而確保交易可以透明且無需信任地進行。代理商務協議只是一個示例,說明多智能體編排框架如何幫助在鏈上以無需信任且安全的方式驅動代理交互。

Olas Protocol 展示了 DeFAI 的實際應用:其 Pearl 應用商店包含 Mobius 和 Optimus 代理,它們使用 Olas 堆棧在 Uniswap、Balancer 和 Sturdy 等平臺上自動化 DeFi 策略,涵蓋 Optimism、Base 和 Mode 等網絡。Olas Protocol 的 Mech 市場也充當代理工具和插件交換中心,允許部署的代理通過代理間通信外包任務。另一個值得注意的例子是 Questflow,它還提出了一個意圖匹配的多智能體編排框架,用戶的請求由識別相關代理的編排器處理,並通過監督代理工作流程執行的任務管理器將代理委派給這些任務。由於代理在 Deagent 代理註冊表中分派,代理創建者也可以獲得公平的報酬。

數據所有權

在龐大的代理格局和生成的大量鏈上數據中,鏈上分析正成為一個日益有價值的領域,許多項目都在尋求提供數據標記服務(例如 Sahara AI)、跟蹤(Arkham Intelligence、Kaito)、證明註冊表(EAS、BAS 等)。代理作為用戶的得力助手,可以通過獲得用戶的許可,為 Web3 中不斷增長的數據格局做出貢獻,使用戶可以因其數據貢獻而獲得公平的獎勵。

遊戲

在 Web3 遊戲社區中,對 AI 支持的代理的興趣和需求不斷增長。遊戲代理可以為非玩家角色 (NPC) 提供動力或管理遊戲內經濟。它們通過自主執行任務和響應玩家操作來幫助創建動態、響應式環境。該領域值得注意的項目包括 Parallel 的 WayFinder 平臺,該平臺正在構建一個知識圖,可供 AI 代理在遊戲中的不同代理工作流程中使用。Treasure DAO 是另一個值得注意的例子,它最近宣佈即將推出由 ElizaOS 提供支持的 MAGE 代理啟動平臺,進一步朝著代理驅動的 Web3 遊戲格局邁進。Virtuals Protocol 還推出了 Project WestWorld,這是一個 Roblox 中的交互式模擬,由 G.A.M.E 框架驅動的多智能體自主交互並驅動動態遊戲敘事。

其他用例

  • AI 驅動的 DAO: 代理可以將冗長的提案提煉成主流用戶易於理解和投票的易於理解的信息,從而增強去中心化的核心精神。

  • 智能合約審計、網絡分析、欺詐檢測: 代理在調試中可以發揮至關重要的作用,通常比人類更快地識別潛在風險,從而在與人類智能結合時降低安全風險。

  • 供應鏈優化: 通過使用 AI 的預測能力和區塊鏈的透明和安全功能,這可以簡化並實現更具成本效益的運營。

成熟 Web3 多智能體系統面臨的挑戰和努力

Web3 環境中的多智能體系統 (MAS)(其中代理在去中心化基礎設施上運行,並且通常使用智能合約進行協調)面臨著一些可能影響其設計、部署和性能的限制和挑戰。以下是 Web2 和 Web3 代理可能面臨的一些障礙:

  • 與基於單個 LLM 的系統一樣,多智能體系統也受到模型幻覺風險的影響。當幻覺從一個代理傳遞到另一個代理時,多智能體系統中的幻覺風險可能更嚴重,從而加劇了問題。代理之間管理不善的通信將導致次優的性能。因此,當我們走向未來的完全自主代理時,許多框架仍然需要一些人工監督。

  • 實現代理之間的共識和狀態同步。在多智能體系統中,為了成功完成任務,代理必須在複雜且分層的多智能體系統中導航,確保與整體任務、自身職責和多智能體通信保持一致。

  • Web3 中的代理還面臨可擴展性和延遲問題,因為它們在底層區塊鏈上運行,因此與其他類型的交易競爭區塊空間。這可能意味著在區塊鏈可擴展性挑戰得到解決之前,我們在可預見的未來看不到大型代理網絡的完全鏈上編排。區塊鏈上的安全和隱私挑戰在 Web3 環境中也是獨一無二的,這增加了複雜性。然而,隨著 Turnkey 等新興解決方案的出現,這種情況正在慢慢得到解決,Turnkey 提供了一個 TEE 解決方案 (AWS Nitro Enclaves),代理可以在其中安全且可驗證地執行操作。Phala Network 還宣佈與 GoPlus 建立合作伙伴關係,利用 Phala 的 TEE 功能和 GoPlus 安全功能來增強 ElizaOS 代理。

  • 多智能體內存管理。在多智能體系統中,不同的代理執行不同的任務並存儲不同的信息。因此,為了確保成功交付總體目標,達成信息共識是有幫助的,同時實施強大的訪問控制機制至關重要,因為某些代理可能正在處理高度敏感的信息。未能實施強大的安全措施可能導致數據隱私洩露和任務執行失敗。

  • 某些領域(例如科學實驗室實驗、經濟學建模和鏈上技能)缺乏全面的基準和評估標準可能會阻礙該領域的快速增長。

結論

多智能體框架的未來充滿希望,但也充滿挑戰,這凸顯了前路漫漫。與已建立且獲得機構認可的 Web2 多智能體框架相比,Web3 多智能體框架仍處於相對起步階段,生產就緒的用例狹窄。儘管如此,監管轉變和為緩解上述挑戰而做出的持續努力是進一步採用的關鍵催化劑。

此外,代理開發工具(例如 SendAI 套件、Coinbase 代理套件、ShellAgent 無代碼平臺、Olas 堆棧等)的增長,以簡化代理創建並擴展代理的用例,繼續取得進展,推動開發人員的增長和新的創新。GOAT SDK 等 Web3 庫的進步有助於擴展代理實現的操作的可能性。最終,隨著技術的發展和這些系統的成熟,我們可以期待代理工作流程在鏈上交互中變得司空見慣。就像有許多 Web2 多智能體框架一樣,我們希望在 Web3 中看到更多提供通用和利基方法的代理框架。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
1
評論