AI Agents的七大啟示：研究與應用

11-22

作者：Rituals

翻譯：白話區塊鏈

近年來，代理（Agent）的概念在哲學、遊戲和人工智能等多個領域的重要性日益凸顯。從傳統意義上看，代理指的是一個實體能夠自主行動、做出選擇並具有意圖性，這些特質通常與人類聯繫在一起。

而在人工智能領域，代理的內涵變得更加複雜。隨著自主代理的出現，這些代理能夠在環境中進行觀察、學習並獨立行動，使得過去抽象的代理概念被賦予了計算系統的具體形式。這些代理幾乎無需人為干預，展現出一種雖非意識卻具備計算性意圖的能力，能夠做出決策、從經驗中學習，並以越來越複雜的方式與其他代理或人類互動。

本文將探討自主代理這一新興領域，特別是基於大型語言模型（LLM）的代理及其在遊戲、治理、科學、機器人等不同領域的影響。在探討代理基本原則的基礎上，本文將分析人工智能代理的架構與應用。通過這種分類視角，我們能夠深入瞭解這些代理如何執行任務、處理信息並在其特定的操作框架中不斷發展。

本文的目標包括以下兩個方面：

提供對人工智能代理及其架構基礎的系統性概述，重點分析記憶、感知、推理和規劃等組成部分。
探討人工智能代理研究的最新趨勢，突出其在重新定義可能性方面的應用案例。

注：由於文章篇幅問題，本文編譯對原文有刪減。

1、代理研究趨勢

基於大型語言模型（LLM）的代理發展標誌著人工智能研究的重大進展，涵蓋了符號推理、反應式系統、強化學習到自適應學習的多重進步。

符號代理：通過規則和結構化知識模擬人類推理，適用於特定問題（如醫療診斷），但難以應對複雜、不確定環境。

反應式代理：通過“感知-行動”循環快速響應環境，適合快速交互場景，但無法完成複雜任務。

強化學習代理：通過試錯學習優化行為，廣泛應用於遊戲和機器人，但訓練時間長，樣本效率低，穩定性差。

基於LLM的代理：LLM代理結合符號推理、反饋和自適應學習，具有少樣本和零樣本學習能力，廣泛應用於軟件開發、科學研究等領域，適合動態環境並能與其他代理協作。

2、代理架構

現代代理架構包括多個模塊，形成綜合系統。

1）檔案模塊

檔案模塊決定代理行為，通過分配角色或個性來確保一致性，適用於需要穩定個性的場景。LLM代理的檔案分為三類：人口學角色、虛擬角色和個性化角色。

摘自《從角色到個性化》論文

角色對性能的提升角色設定可顯著提升代理的表現和推理能力。例如，LLM作為專家時回應更深入、符合語境。在多代理系統中，角色匹配促進協作，提升任務完成率和互動質量。

檔案創建方法LLM代理檔案可通過以下方式構建：

手動設計：人工設定角色特徵。
LLM生成：通過LLM自動擴展角色設定。
數據集對齊：基於真實數據集構建，提升互動真實性。

2）記憶模塊

記憶是LLM代理的核心，支持適應性規劃與決策。記憶結構模擬人類過程，主要分為兩類：

統一記憶：短期記憶，處理最近的信息。通過文本截取、記憶總結和修改注意力機制優化，但受上下文窗口限制。

混合記憶：結合短期與長期記憶，長期記憶存儲在外部數據庫中，便於高效回憶。

記憶格式常見的記憶存儲格式包括：

自然語言：靈活且語義豐富。
嵌入向量：便於快速檢索。
數據庫：通過結構化存儲，支持查詢。
結構化列表：以列表或層級形式組織。

記憶操作代理通過以下操作與記憶交互：

記憶讀取：檢索相關信息，支持明智決策。
記憶寫入：存儲新信息，避免重複與溢出。
記憶反思：總結經驗，增強抽象推理能力。

基於《Generative Agents》論文的內容

研究意義與挑戰

儘管記憶系統提升了智能體能力，但也帶來研究挑戰：

可擴展性與效率：記憶系統需支持大量信息並確保快速檢索，如何優化長期記憶檢索仍是研究重點。
上下文限制的處理：當前LLM受限於上下文窗口，難以管理龐大記憶，研究探索動態注意力機制和摘要技術來擴展記憶處理能力。
長期記憶中的偏差與漂移：記憶可能存在偏差，導致信息優先處理併產生記憶漂移，需定期更新並修正偏差以保持智能體平衡。
災難性遺忘：新數據覆蓋舊數據，導致關鍵信息丟失，需通過體驗回放和記憶鞏固技術強化關鍵記憶。

3）感知能力

LLM智能體通過處理多樣化的數據源提升對環境的理解與決策能力，類似於人類依賴感官輸入。多模態感知整合文本、視覺和聽覺等輸入，增強智能體執行復雜任務的能力。以下是主要輸入類型及其應用：

文本輸入文本是LLM智能體的主要溝通方式。儘管智能體具備高級語言能力，理解指令背後的隱含意義仍是挑戰。
- 隱含理解：通過強化學習調整偏好，處理模糊指令和推測意圖。
- 零樣本與少樣本能力：無需額外訓練即可響應新任務，適用於多樣化交互場景。
視覺輸入視覺感知讓智能體理解物體與空間關係。
- 圖像轉文本：生成文字描述幫助處理視覺數據，但可能失去細節。
- 基於Transformer的編碼：如Vision Transformers將圖像轉化為文本兼容的令牌。
- 橋接工具：如BLIP-2和Flamingo利用中間層優化視覺與文本對接。
聽覺輸入聽覺感知讓智能體識別聲音和語音，尤其在互動和高風險場景中重要。
- 語音識別與合成：如Whisper（語音轉文字）和FastSpeech（文字轉語音）。
- 頻譜圖處理：將音頻頻譜圖處理為圖像，提升聽覺信號解析能力。

多模態感知的研究挑戰與考量：

數據對齊與整合多模態數據需要高效對齊，以避免感知與響應錯誤，研究集中於優化多模態Transformer與交叉注意力層。
可擴展性與效率多模態處理需求大，尤其處理高分辨率圖像和音頻時，開發低資源消耗且具擴展性的模型是關鍵。
災難性遺忘多模態智能體面臨災難性遺忘，需要策略如優先級回放和持續學習來有效保留關鍵信息。
情境敏感的響應生成根據上下文優先處理感官數據生成響應仍是研究重點，特別是在嘈雜或視覺主導的環境中。

4）推理與規劃

推理與規劃模塊幫助智能體通過分解複雜任務高效解決問題。類似人類，它能制定結構化計劃，既可以預先構建完整計劃，也能根據反饋實時調整策略。規劃方法按反饋類型分類：

一些智能體執行前構建完整計劃，按單一路徑或多種選項執行，不修改計劃。
另一些智能體在動態環境中，根據反饋實時調整策略。

沒有反饋的規劃在無反饋情況下，智能體從一開始就制定完整計劃並執行，不調整。包括單路徑規劃（按步驟執行）和多路徑規劃（同時探索多個選項，選擇最佳路徑）。

單路徑推理任務分解為順序步驟，每一步接著下一步：

思維鏈（CoT）：通過少量示例，引導智能體按步驟解決問題，提升模型輸出質量。
零-shot-CoT：無需預設示例，通過提示“逐步思考”進行推理，適用於零-shot學習。
再提示：自動發現有效的CoT提示，無需人工輸入。

來自CoT論文

5）多路徑推理

與單路徑推理不同，多路徑推理允許智能體同時探索多個步驟，生成並評估多個潛在解決方案，從中選擇最佳路徑，適用於複雜問題，尤其在多種可能途徑的情況下。

示例：

自一致性鏈式思維（CoT-SC）：從CoT提示輸出中採樣多個推理路徑，選擇頻率最高的步驟，實現“自集成”。
思維樹（ToT）：將邏輯步驟存儲為樹結構，評估每個“思維”對解決方案的貢獻，使用廣度優先或深度優先搜索導航。
思維圖（GoT）：擴展ToT為圖結構，思維作為頂點，依賴關係為邊，允許更靈活的推理。
通過規劃推理（RAP）：使用蒙特卡洛樹搜索（MCTS）模擬多個計劃，語言模型既構建推理樹又提供反饋。

6）外部規劃器

當LLM面對特定領域的規劃挑戰時，外部規劃器提供支持，整合LLM缺乏的專業知識。

LLM+P：將任務轉為規劃領域定義語言（PDDL），通過外部規劃器求解，幫助LLM完成複雜任務。
CO-LLM：模型協作生成文本，通過交替選擇模型生成標記，讓最優協作模式自然浮現。

有反饋的規劃有反饋的規劃使代理根據環境變化實時調整任務，適應不可預測或複雜的場景。

環境反饋代理與環境交互時，根據實時反饋調整計劃，保持任務進度。

ReAct：結合推理與行動提示，在互動中創建可調整計劃。
DEPS：在任務規劃中修訂計劃，處理未完成的子目標。
SayPlan：使用場景圖和狀態轉移細化策略，提高情境感知。

來自《ReAct》論文

7）人工反饋

通過與人類互動，幫助代理與人類價值觀對齊，避免錯誤。示例：

內心獨白：將人類反饋整合進代理規劃中，確保行動與人類預期一致。

模型反饋來自預訓練模型的反饋幫助代理自我檢查並優化推理與行動。示例：

SelfCheck：零-shot逐步檢查器，用於自我識別推理鏈中的錯誤，並評估正確性。
Reflexion：代理通過記錄反饋信號進行反思，促進長期學習與錯誤修正。

來自《SelfCheck》論文

推理與規劃中的挑戰與研究方向儘管推理與規劃模塊提升了智能體功能，但仍面臨挑戰：

可擴展性和計算需求：複雜方法如ToT或RAP需要大量計算資源，提升效率仍是研究重點。
反饋整合的複雜性：有效整合多源反饋，避免信息過載，是提升適應性而不犧牲性能的關鍵。
決策中的偏差：優先考慮某些反饋源或路徑可能導致偏差，結合偏差消除技術是平衡規劃的關鍵。

8）行動

行動模塊是智能體決策過程的最後階段，包括：

行動目標：智能體執行多種目標，如任務完成、溝通或環境探索。
行動生成：通過回憶或計劃生成行動，如基於記憶或計劃的行動。
行動空間：包括內在知識和外部工具，如API、數據庫或外部模型來執行任務。例如，HuggingGPT和ToolFormer等工具利用外部模型或API進行任務執行。

數據庫與知識庫：ChatDB使用SQL查詢來檢索領域特定的信息，而MRKL將專家系統和規劃工具整合用於複雜的推理。

外部模型：代理可能依賴非API模型執行專門任務。例如，ChemCrow通過多個模型進行藥物發現，MemoryBank通過兩個模型增強文本檢索。

行動影響：行動根據結果可分為：

環境變化：如Voyager和GITM中的資源收集或建造結構，改變環境。
自我影響：如Generative Agents更新記憶或制定新計劃。
任務鏈式：某些行動觸發其他行動，如Voyager在資源收集後建造結構。

擴展行動空間：設計AI代理需要強大架構和任務技能。能力獲取有兩種方式：微調和不微調。

微調獲取能力：

人工標註數據集：如RET-LLM和EduChat，通過人工標註提升LLM表現。
LLM生成數據集：如ToolBench，通過LLM生成指令微調LLaMA。
真實世界數據集：如MIND2WEB和SQL-PaLM，通過實際應用數據提升代理能力。

無微調能力獲取在微調不可行時，代理可通過提示工程和機制工程提升能力。

提示工程通過設計提示引導LLM行為，提高性能。

Chain of Thought (CoT)：加入中間推理步驟，支持複雜問題解決。
SocialAGI：根據用戶心理狀態調整對話。
Retroformer：結合過去失敗的反思優化決策。

機制工程通過專門規則和機制增強代理能力。

DEPS：優化計劃，通過描述執行過程、反饋和目標選擇提升錯誤修正。
RoCo：根據環境檢查調整多機器人協作計劃。
辯論機制：通過協作達成共識。

經驗積累

GITM：基於文本的記憶機制提高學習和泛化能力。
Voyager：通過自我反饋優化技能執行。

自驅進化

LMA3：支持目標重標和獎勵函數，使代理在無特定任務的環境中學習技能。

來自《Voyager》論文

微調能顯著提升任務特定的性能，但需要開源模型且資源消耗較大。提示工程和機制工程適用於開源和閉源模型，但受到輸入上下文窗口的限制，且需要精心設計。

3、涉及多個智能體（agents）的系統架構

多智能體架構將任務分配給多個智能體，各自專注不同方面，提升魯棒性和適應性。智能體間的協作和反饋增強整體執行效果，並可根據需求動態調整智能體數量。然而，這種架構面臨協調挑戰，溝通至關重要，避免信息丟失或誤解。

為促進智能體間的溝通與協調，研究關注兩種組織結構：

水平結構：所有智能體共享並優化決策，通過集體決策彙總個人決策，適用於諮詢或工具使用場景。
垂直結構：一個智能體提出初步解決方案，其他智能體提供反饋或由管理者監督，適用於需要精煉解決方案的任務，如數學問題求解或軟件開發。

來自《ChatDev》論文

1）混合組織結構

DyLAN將垂直和水平結構結合成混合方法，代理在同層內水平協作，並跨時間步交換信息。DyLAN引入排名模型和代理重要性評分系統，動態評估並選擇最相關的代理繼續協作，表現不佳的代理被停用，形成層級結構。高排名代理在任務和團隊構成中起關鍵作用。

合作型多代理框架通過共享信息和協調行動，聚焦各代理優勢，實現互補合作以最大化效率。

來自《Agentverse》論文

合作互動分為兩種類型：

無序合作：多個代理自由互動，未按固定順序或流程，類似頭腦風暴。每個代理提供反饋，系統通過協調代理整合輸入並組織響應，避免混亂，通常使用多數投票機制達成共識。

有序合作：代理按順序互動，遵循結構化流程，每個代理關注前一個代理的輸出，確保高效溝通。任務快速完成，避免混亂，但需要通過交叉驗證或人工干預防止放大錯誤。

來自MetaGPT論文

對抗性多智能體框架合作性框架提升效率和協作，而對抗性框架通過挑戰推動智能體進化。受博弈論啟發，對抗性交互鼓勵智能體通過反饋和反思改進行為。例如，AlphaGo Zero通過自我對弈改進策略，LLM系統通過辯論和“以牙還牙”交換提高輸出質量。儘管這種方法促進智能體適應性，但也帶來計算開銷和錯誤風險。

湧現行為在多智能體系統中，可能出現三種湧現行為：

志願行為：智能體主動貢獻資源或幫助他人。
一致性行為：智能體調整行為以符合團隊目標。
破壞性行為：智能體可能採取極端行為以快速達成目標，可能帶來安全隱患。

基準測試與評估基準測試是評估智能體表現的關鍵工具，常用平臺包括ALFWorld、IGLU和Minecraft等，用於測試智能體在規劃、協作和任務執行方面的能力。同時，工具使用和社交能力的評估也十分重要，平臺如ToolBench和SocKET分別評估智能體的適應能力與社交理解。

應用數字遊戲成為AI研究的重要平臺，基於LLM的遊戲智能體注重認知能力，推動AGI研究。

來自《基於大語言模型的遊戲智能體調查》論文

遊戲中的智能體感知在視頻遊戲中，智能體通過感知模塊理解遊戲狀態，主要方法有三種：

狀態變量訪問：通過遊戲API訪問符號數據，適用於視覺要求較低的遊戲。
外部視覺編碼器：使用視覺編碼器將圖像轉為文本，如CLIP，幫助智能體理解環境。
多模態語言模型：結合視覺和文本數據，增強智能體的適應性，如GPT-4V。

遊戲智能體案例研究

Cradle（冒險遊戲）：該遊戲要求智能體理解故事情節、解決謎題和導航，面臨多模態支持、動態記憶和決策的挑戰。Cradle的目標是實現通用計算機控制（GCC），使智能體通過屏幕和音頻輸入，執行任何計算機任務，具有更大通用性。

PokéLLMon（競技遊戲）競技遊戲因其嚴格規則和可與人類玩家比較的勝率，成為推理和規劃性能的基準。多個智能體框架已展示出競技表現。比如，《大型語言模型玩《星際爭霸2》：基準與鏈式總結方法》中的LLM智能體與內建AI進行文本版《星際爭霸2》對戰。 PokéLLMon 是首個實現人類水平表現的LLM智能體，在《寶可夢》戰術遊戲中獲得49%排位賽勝率和56%邀請賽勝率。該框架通過增強知識生成與一致性動作生成，避免幻覺和鏈式思維中的恐慌循環。智能體將戰鬥服務器的狀態日誌轉化為文本，確保回合連貫性並支持基於記憶的推理。

智能體通過四種反饋強化學習，包括HP變化、技能效果、行動順序的速度估算、以及技能狀態效果，以優化策略並避免循環使用無效技能。

PokéLLMon 利用外部資源（如 Bulbapedia）獲取知識，如類型剋制和技能效果，幫助智能體更精準地使用特殊技能。此外，通過評估 CoT、Self-Consistency 和 ToT 方法，發現 Self-Consistency 顯著提升勝率。

ProAgent（合作遊戲）合作遊戲需要理解隊友意圖並預測行動，通過顯式或隱式合作完成任務。顯式合作效率高但靈活性較低，隱式合作則依靠預測隊友策略進行適應性互動。在《Overcooked》中，ProAgent 展示了隱式合作的能力，其核心流程分五步：

知識收集與狀態轉換：提取任務相關知識並生成語言描述。
技能規劃：推測隊友意圖並制定行動方案。
信念修正：動態更新對隊友行為的理解，減少錯誤。
技能驗證與執行：迭代調整計劃以確保行動有效。
記憶存儲：記錄互動與結果以優化未來決策。

其中，信念修正機制尤為關鍵，確保智能體隨著互動更新理解，提高情境感知和決策準確性。

ProAgent 超越了五種自我對弈和基於人群的訓練方法。

2）生成型智能體（模擬）

虛擬角色如何體現人類行為的深度和複雜性？儘管早期AI系統如SHRDLU和ELIZA嘗試自然語言交互，基於規則的方法和強化學習也在遊戲中取得進展，但它們在一致性和開放互動上存在侷限。如今，結合LLM與多層架構的智能體突破了這些限制，具備存儲記憶、反思事件並適應變化的能力。研究表明，這些智能體不僅能模擬真實人類行為，還展現了傳播信息、建立社交關係和協調行為的突現能力，推動虛擬角色更加逼真。

來自《大規模語言模型智能體的崛起與潛力：一項調查》

架構概述：該架構結合感知、記憶檢索、反思、規劃與反應。智能體通過記憶模塊處理自然語言觀察，根據時效性、重要性和情境相關性評估並檢索信息，同時生成基於過去記憶的反思，提供關係和計劃的深刻洞察。推理和規劃模塊則類似於計劃-行動循環。

模擬結果：研究模擬了情人節派對和市長選舉的信息傳播，兩天內市長候選人知曉度從4%增至32%，派對知曉度從4%升至52%，虛假信息佔比僅1.3%。智能體通過自發協調組織派對，形成新社交網絡，密度從0.167增至0.74。模擬展示了無需外部干預的信息共享和社交協調機制，為未來社會科學實驗提供參考。

Voyager（製作與探索）：在Minecraft中，智能體可執行製作任務或自主探索。製作任務依賴LLM規劃和任務分解，而自主探索通過課程學習識別任務，LLM生成目標。Voyager是具身終身學習智能體，結合自動課程、技能庫和反饋機制，展現了探索與學習的潛力。

自動課程利用LLM生成與智能體狀態和探索進度相關的目標，使任務逐步複雜化。智能體生成模塊化代碼執行任務，並通過鏈式思維提示反饋結果，必要時修改代碼。成功後，代碼存儲於技能庫以備後用。

Voyager框架顯著提升了技術樹解鎖效率，木材、石材和鐵的解鎖速度分別快15.3倍、8.5倍和6.4倍，併成為唯一解鎖鑽石的框架。其探索距離比基準長2.3倍，發現新物品多3.3倍，展現了卓越的終身學習能力。

4、遊戲領域的潛在應用

1）代理驅動的遊戲玩法

多代理模擬：AI角色自主行動，推動動態玩法。
策略遊戲智能單位：代理根據玩家目標適應環境並自主決策。
AI訓練場：玩家設計並訓練AI完成任務。

2）AI增強的NPC與虛擬世界

開放世界NPC：LLM驅動NPC影響經濟與社交動態。
真實對話：提升NPC互動體驗。
虛擬生態：AI驅動生態系統演化。
動態事件：實時管理遊戲內活動。

3）動態敘事與玩家支持

自適應敘事：代理生成個性化任務與故事。
玩家助手：提供提示和互動支持。
情感響應AI：根據玩家情緒互動。

4）教育與創造

AI對手：在競技與模擬中適應玩家策略。
教育遊戲：代理提供個性化教學。
輔助創作：生成遊戲內容，降低開發門檻。

5）加密與金融領域

代理通過區塊鏈自主操作錢包、交易與交互DeFi協議。

智能合約錢包：支持多簽名與賬戶抽象，增強代理自主性。
私鑰管理：採用多方計算（MPC）或可信執行環境（TEE）確保安全，如Coinbase開發的AI代理工具。

這些技術為代理的自主鏈上交互與加密生態應用帶來新機遇。

5、區塊鏈領域的代理應用

1）驗證性代理推理

鏈下驗證是區塊鏈研究的熱點，主要應用於高複雜度計算。研究方向包括零知識證明、樂觀驗證、可信執行環境（TEE）以及加密經濟博弈論。

代理輸出驗證：通過鏈上驗證器確認代理推理結果，使代理能被外部運行並將可靠的推理結果上鍊，類似去中心化預言機。
案例：Modulus Labs 的“Leela vs. the World”使用零知識電路驗證棋局動作，結合預測市場與可驗證AI輸出。

2）密碼學代理協作

分佈式節點系統可運行多代理系統並達成共識。

Ritual案例：通過多節點運行LLM，結合鏈上驗證與投票形成代理行動決策。
Naptha協議：提供任務市場與工作流驗證系統，用於代理任務的協同與驗證。
去中心化AI預言機：如Ora協議，支持分佈式代理運行和共識建立。

3）Eliza框架

由a16z開發，專為區塊鏈設計的開源多代理框架，支持個性化智能代理創建與管理。

特性：模塊化架構、長期記憶、平臺集成（支持Discord、X、Telegram等）。
信任引擎：結合自動化Token交易，評估並管理推薦信任分數。

4）其他代理應用

去中心化能力獲取：通過獎勵機制激勵工具和數據集開發，例如技能庫創建與協議導航。
預測市場代理：結合預測市場與代理自主交易，如Gnosis與Autonolas支持鏈上預測與回答服務。
代理治理授權：通過代理在DAO中自動分析提案並投票。
Token化代理：代理收入共享，如MyShell與Virtuals Protocol支持分紅機制。
DeFi意圖管理：代理優化多鏈環境下的用戶體驗，自動執行交易。
自主Token發行：由代理發行Token，增強Token的市場吸引力。
自治藝術家：如Botto，結合社區投票與鏈上NFT鑄造，支持代理創作與收益分配。
經濟化遊戲代理：AI Arena等結合強化學習與模仿學習，設計24/7在線遊戲競技。

6、近期動態與展望多個項目正在探索區塊鏈與 AI 的結合點，應用領域豐富。後續將專門討論鏈上 AI 代理。

1）預測能力預測是決策關鍵。傳統預測分為統計和判斷預測，後者依賴專家，成本高且慢。

研究進展：
- 通過新聞檢索和推理增強，大型語言模型（LLMs）預測準確率從 50% 提升至 71.5%，接近人類預測的 77%。
- 集成 12 個模型預測效果接近人類團隊，展示“群體智慧”提升可靠性。

2）角色扮演（Roleplay）

LLMs 在角色扮演領域表現出色，結合社會智能和記憶機制，能模擬複雜交互。

應用：可用於角色模擬、遊戲交互和個性化對話。
方法：結合檢索增強生成（RAG）和對話工程，通過少樣本提示優化表現。
創新：
- RoleGPT 動態提取角色上下文，提升擬真度。
- Character-LLM 藉助傳記數據重現歷史人物特質，精準還原角色。

這些技術推動了 AI 在社交模擬和個性化互動等領域的應用拓展。

摘自《Character-LLM》論文

RPLA（Role-Playing Language Agent角色扮演語言智能體 ）的應用

以下是部分RPLA應用的簡要列表：

遊戲中的互動NPC：打造具備情感智能的動態角色，提升玩家沉浸感。
歷史人物模擬：復現歷史人物，如蘇格拉底或克婁巴特拉，用於教育或探索性對話。
故事創作助手：為作家、RPG玩家及創作者提供豐富的敘事與對話支持。
虛擬表演：扮演演員或公眾人物，用於互動戲劇、虛擬活動等娛樂場景。
AI共創：與AI合作，創作特定風格的藝術、音樂或故事。
語言學習夥伴：模擬母語者提供沉浸式語言練習。
社會模擬：構建未來或假想社會，測試文化、倫理或行為場景。
定製虛擬伴侶：打造具有獨特個性、特質與記憶的個性化助手或夥伴。

7、AI對齊問題

評估LLM是否符合人類價值觀是一項複雜任務，因實際應用場景的多樣性與開放性而充滿挑戰。設計全面對齊測試需投入大量精力，但現有的靜態測試數據集難以及時反映新興問題。

目前，AI對齊多通過外部人工監督完成，例如OpenAI的RLHF（基於人類反饋的強化學習）方法，該過程耗時6個月，耗費大量資源以實現GPT-4的對齊優化。

也有研究嘗試減少人工監督，利用更大的LLM進行審查，但新的方向是藉助代理框架分析模型的對齊情況。例如：

1）ALI-Agent框架

通過動態生成真實場景檢測微妙或“長尾”風險，克服傳統靜態測試的侷限性。
兩階段流程：
- 場景生成：基於數據集或網絡查詢生成潛在風險場景，利用記憶模塊調用過往評估記錄。
- 場景優化：若未發現對齊問題，通過目標模型反饋迭代優化場景。
模塊組成：記憶模塊、工具模塊（如網絡搜索）及行動模塊。實驗證明其能有效揭示LLM中未被識別的對齊問題。

2）MATRIX方法

基於“多角色扮演”自我對齊方式，啟發於社會學理論，通過模擬多方互動來理解價值觀。
核心特點：
- Monopolylogue方法：單一模型扮演多個角色並評估社交影響。
- 社交調節器：記錄互動規則與模擬結果。
創新之處：摒棄預設規則，通過模擬互動塑造LLM的社會意識，並利用模擬數據微調模型以實現快速自我對齊。實驗證明MATRIX對齊效果優於現有方法，並在某些基準測試中超越GPT-4。

摘自《MATRIX論文》

關於代理AI對齊的研究還有很多，可能值得單獨寫一篇文章。

治理與組織 組織依賴標準操作程序（SOP）來協調任務和分配責任。例如，軟件公司中的產品經理使用SOP分析市場和用戶需求，並制定產品需求文檔（PRD）來指導開發過程。這種結構適用於多代理框架，如MetaGPT，其中代理角色明確，具備相關工具和規劃能力，且通過反饋優化表現。

機器人技術 基於代理的架構提升了機器人在複雜任務規劃和自適應交互中的表現。語言條件下的機器人政策幫助機器人理解環境，並根據任務需求生成可執行的行動序列。

架構框架 LLM與經典規劃結合，能有效解析自然語言命令並轉化為可執行的任務序列。SayCan框架結合強化學習和能力規劃，使機器人能夠在現實中執行任務，確保指令的可行性和適應性。Inner Monologue進一步提升了機器人的適應性，通過反饋調整行動實現自我修正。

示例框架 SayCan框架使機器人在面對自然語言指令時，能評估和執行任務（如從桌子上取飲料）並確保與實際能力匹配。

SayPlan：SayPlan通過使用3DSGs高效規劃多房間任務，保持空間上下文感知並驗證計劃，確保廣泛空間中的任務執行。

Inner Monologue：該框架通過實時反饋優化執行，適應環境變化，適用於廚房任務和桌面重排等應用。

RoCo：一種零-shot多機器人協作方法，結合自然語言推理和運動規劃，生成子任務計劃並通過環境驗證優化，確保可行性。

科學《Empowering Biomedical Discovery with AI Agents》提出了多代理框架，結合工具和專家，支持科學發現。文章介紹了五種協作方案：

頭腦風暴代理
專家諮詢代理
研究辯論代理
圓桌討論代理
自主實驗室代理

文章還討論了AI代理的自主性級別：

Level 0：ML模型幫助科學家形成假設，如AlphaFold-Multimer預測蛋白質相互作用。
Level 1：代理作為助理支持任務和目標設定。ChemCrow用機器學習工具擴展行動空間，支持有機化學研究，成功發現新色素。

Level 2：在Level 2階段，AI代理與科學家合作完善假設，執行假設測試並使用工具進行科學發現。Coscientist 是一個基於多個LLM的智能代理，能自主規劃、設計並執行復雜實驗，利用工具如互聯網、API和與其他LLM的協作，甚至直接控制硬件。其能力體現在化學合成規劃、硬件文檔查找、高階命令執行、液體處理、複雜科學問題解決等六個方面。

Level 3：在Level 3階段，AI代理能超越現有研究範圍，推測出新的假設。儘管這一階段尚未實現，但通過優化自身工作，可能會加速AI發展的進程。

8、小結：AI 代理的未來

AI代理正在改變智能的概念與應用，重塑決策和自主性。它們在科學發現、治理框架等領域成為活躍參與者，不僅是工具，也是協作夥伴。隨著技術進步，我們需要重新思考如何平衡這些代理的力量與潛在的倫理和社會問題，確保其影響是可控的，推動技術發展並減少風險。

本文鏈接：https://www.hellobtc.com/kp/du/11/5549.html

來源：https://accelxr.substack.com/p/ai-agents-research-and-applications

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論