4萬星開源項目被指造假,MemGPT作者開撕Mem0:為營銷隨便造數據,淨搞沒有意義的測試

avatar
36氪
08-15

“我真的厭倦了看到那些急於求成的科技初創公司,為了討好風投而在數據上撒謊,還貼上‘SOTA’的標籤。”有網友吐槽。

事情源於高人氣開源智能體記憶項目 Mem0 在今年 4 月底發佈的一篇論文。論文中,該項目團隊為可擴展的、以記憶為核心的架構 Mem0 提出了增強版本,並聲稱在 LOCOMO 上打敗了所有人,其中,Mem0 在 “LLM-as-a-Judge” 指標上相較於 OpenAI 提高了 26%。(論文地址:https://arxiv.org/abs/2504.19413)

當地時間 8 月 13 日, 另一個高人氣的智能體記憶框架 MemGPT 的創始團隊 Letta AI ,其聯合創始人兼 CTO Sarah Wooders 對此公開指控:

幾個月前,Mem0 發佈了 MemGPT 的基準測試數據,並聲稱在記憶方面達到了 “SOTA” 水平。

奇怪的是,我完全不知道他們到底是怎麼跑這個基準測試的,如果不對 MemGPT 做重大修改,這個測試根本沒法完成(他們沒有回應我們關於實驗具體運行方式的詢問)。

arXiv 並不是經過同行評審的平臺,所以不幸的是,近年來公司可以隨意發佈任何他們想要的“研究”結果來做市場營銷。

我們很輕鬆就用一些簡單的文件系統工具超過了他們的基準數據——這也說明這個基準測試本身並沒有太大意義。

“Mem0 聲稱他們在 LOCOMO 上打敗了所有人,但結果發現他們完全把競爭對手的實現搞砸了。然後還用這些糟糕的結果來證明自己的優勢。等到 Letta 和 Zep 按正確方式跑了基準測試後,兩者的得分都比 Mem0 的最佳成績高出 10%。”網友評價道,“這個行業裡的‘空氣產品’多到離譜。我理解為了拿到風投,企業會誇大功能,但在科研論文裡撒謊實在是可悲。”

兩個“頂流”崛起 

Mem0 和 Letta 的誕生都是為了解決大模型的長期記憶問題。

自 GPT-4 問世以來,大模型一直受限於固定的上下文長度。沒有長期記憶,大模型和智能體會面臨顯著侷限:它們會遺忘信息,無法隨著時間學習和改進,並且在長時間、複雜的任務中會失去目標。

為此,在 2023 年,加州大學伯克利分校(UC Berkeley)的研究團隊提出的一種創新型系統 MemGPT, 借鑑傳統操作系統(OS)的理念,引入了智能體的記憶管理,通過構建記憶層級,讓智能體主動管理哪些信息保留在即時上下文(核心記憶)中、哪些存儲在外部層(對話記憶、歸檔記憶和外部文件),以便按需檢索。這樣,智能體可以在固定的上下文窗口內保持無限的記憶容量。

MemGPT 的研究迅速引起社區關注,MemGPT 論文的帖子在 Hacker News 首頁上停留了 48 小時,開源後已累積 17.8k stars。

隨著開源項目的推進,團隊成立了名為 Letta 的公司,持續維護 MemGPT 開源框架,並推動其商業化和工程化落地。原來的 MemGPT 也升級成了 Letta。

這家由伯克利博士生 Sarah Wooders 和 Charles Packer 創立的 AI 初創公司備受期待。Letta 獲得了由 Felicis 的 Astasia Myers 領投的 1000 萬美元種子資金,本輪估值為 7000 萬美元。此外,還得到了人工智能領域一系列天使投資人的支持,其中包括谷歌的 Jeff Dean、Hugging Face 的 Clem Delangue、Runway 的 Cristóbal Valenzuela 和 Anyscale 的 Robert Nishihara 等。

如今,許多智能體系統都實現了 MemGPT 的設計。

Mem0 則是由印度工程師 Taranjeet Singh 和 Deshraj Yadav 成立,源於他們構建開源檢索增強生成 (RAG) 框架 Embedchain 的經驗,該框架下載量超過 200 萬次。

根據 YC 的介紹,Singh 曾作為首位增長工程師加入 Khatabook(YC S18),並迅速晉升為高級產品經理。他的軟件工程職業生涯始於 Paytm(印度的 PayPal),親歷了其迅速崛起成為家喻戶曉的品牌。他開發了一款由 AI 驅動的輔導應用,曾在 Google I/O 上亮相。他與 Deshraj 共同創建了 EvalAI,這是一個開源的 Kaggle 替代平臺,GitHub 上獲得了 1.6K stars。他還創立了首個 GPT 應用商店,用戶規模突破 100 萬。

Yadav 則廣泛關注人工智能和機器學習基礎設施領域,曾領導特斯拉自動駕駛的 AI 平臺,支持特斯拉全自動駕駛開發中的大規模訓練、模型評估、監控和可觀測性。在此之前,Deshraj 在喬治亞理工學院完成碩士論文時創建了開源機器學習平臺 EvalAI,並在 CVPR、ECCV、AAAI 等上發表過論文。

Mem0 認為,單純地擴大模型的上下文窗口只會延緩問題的發生,模型會變得更慢、成本更高,而且仍然會忽略關鍵細節。團隊選擇通過一個通用、可擴展的記憶架構來解決問題,Mem0 充當了 AI 應用程序和大模型之間的記憶層,可以動態地從用戶對話中提取、整合和檢索重要信息。

Mem0 提供輕量級的記憶層 API 和向量檢索,開源不到一天就獲得了 9.7k stars,如今已累積 38.2k stars。Netflix、Lemonade 和 Rocket Money 等組織已採用 Mem0 來增強其 AI 系統的長期記憶能力。

此外,業內還出現了多種專用工具,將“記憶”作為可插拔的服務,為智能體提供存儲與檢索信息的能力,常見方式包括使用知識圖譜或向量數據庫等方案。

單獨評估這些記憶工具的有效性極其困難。智能體的記憶質量往往更多取決於底層智能體系統管理上下文和調用工具的能力,而不是記憶工具本身。比如,即便一個搜索工具理論上性能更強,但如果智能體無法有效使用它,例如提示詞設計差或訓練數據中缺少相關示例,它在記憶場景下的表現也不會好。

因此,記憶工具的評估主要集中在類似 LoCoMo 這樣的檢索基準測試,而非真正的智能體記憶能力。

LoCoMo 是一個從長對話中進行檢索的問答基準,專門用於評估大模型長期對話記憶能力,由 Snap Research 團隊推出。每個樣本包含兩名虛構說話者和一份 AI 生成的帶時間戳的對話記錄,任務是回答關於說話者或對話中出現的事實問題。

分歧在哪裡? 

在 4 月底的論文中,Mem0 團隊在之前的基礎上引入了基於圖的記憶表示,來增強關係建模能力。

之前,Mem0 的提取階段處理消息和歷史上下文以創建新的記憶;更新階段則將提取出的記憶與相似的現有記憶進行比對,通過工具調用機制執行相應操作。數據庫作為核心存儲庫,提供處理所需的上下文,並存儲更新後的記憶。

引入基於圖的記憶後,提取階段利用大模型將對話消息轉換為實體和關係三元組;更新階段在將新信息整合到已有知識圖譜時,採用衝突檢測與解決機制。

在實際實現中,Mem0g 使用 Neo4j 作為底層圖數據庫 ,基於大模型的提取器和更新模塊並藉助具有函數調用能力的 GPT-4o-mini,從非結構化文本中進行結構化信息提取。通過將基於圖的表示與語義嵌入以及基於大模型的信息提取相結合,Mem0 獲得了複雜推理所需的結構豐富性和自然語言理解所需的語義靈活性。

在 LOCOMO 基準測試中,Mem0 表示其持續超越六種領先的記憶方法,表現為:響應準確率比 OpenAI 的提升 26% 、延遲比全上下文方法降低 91%、token 使用量節省 90%。

下圖是不同記憶方法在 p50 和 p95 的總響應延遲比較,其中包括了大模型推理在內的延遲。

Mem0 團隊認為,在 AI 智能體部署中,根據具體推理場景靈活調整記憶結構很重要:

Mem0 的稠密記憶管道擅長快速響應、簡單查詢,最大限度減少 token 消耗與計算開銷;而改進後,Mem0 的結構化圖表徵能清晰解析複雜關係,支持複雜事件排序和豐富上下文整合,同時不犧牲實際效率。兩者合力構建了一個多功能的記憶工具包,能夠適應多樣的對話需求,並具備大規模部署能力。

6 月時候,Sarah 在 GitHub 上詢問 Mem0 是如何獲得 MemGPT 的相關數據的,但沒有回應。

“有一個記憶工具廠商 Mem0 發佈了有爭議的結果,聲稱在 LoCoMo 上運行了 MemGPT。但結果令人困惑,因為我們(MemGPT 的原團隊)無法找到不進行大規模代碼重構就將 LoCoMo 數據灌入 MemGPT/Letta 的方法。Mem0 並未回應我們對其基準測試計算方式的澄清請求,也沒有提供支持 LoCoMo 數據回填的修改版 MemGPT 實現。”Letta 表示。

當地時間 8 月 12 日,Letta 發文稱,Letta 在 LoCoMo 上僅通過將對話歷史存儲在文件中(而不是使用專門的記憶或檢索工具),就達到了 74.0% 的準確率。這表明:

之前的記憶基準測試可能並不十分有意義;

記憶更多取決於智能體如何管理上下文,而不是所使用的具體檢索機制。

Letta 表示,雖然 Letta 本身沒有原生方式導入 LoCoMo 那樣的對話歷史,但其最近為 Letta 智能體(包括 MemGPT 智能體)增加了文件系統功能。“我們好奇,如果只是把 LoCoMo 的對話歷史放進一個文件,而不使用任何專用記憶工具,Letta 的表現會如何。”

當文件被掛載到 Letta 智能體後,智能體可以使用以下文件操作工具:

  • grep
  • search_files
  • open
  • close

對話數據被放進一個文件並上傳掛載到智能體中。Letta 會自動解析並嵌入文件內容,以便進行語義(向量)搜索。智能體可以用 search_files 做語義搜索,用 grep 進行文本匹配,再用 answer_question 回答問題。

為了與 MemGPT 的原實驗保持一致,Letta 用 GPT-4o mini 作為模型。由於 GPT-4o mini 能力較弱,Letta 讓智能體部分自治,通過規則限制其調用工具的模式:必須先調用 search_files 搜索文件,再不斷搜索直到決定調用 answer_question 並結束。搜索什麼、搜索多少次由智能體自行決定。

“這個簡單的智能體在 GPT-4o mini 和最少提示調優的情況下,就在 LoCoMo 上取得了 74.0% 的成績,明顯高於 Mem0 報告的其最佳圖記憶版本的 68.5%。”

Letta:能力比工具更重要 

Letta 認為,如今的智能體在使用工具方面非常高效,尤其是那些很可能出現在訓練數據中的工具,如文件系統操作。因此,很多原本為單跳檢索設計的專用記憶工具,還不如直接讓智能體自主迭代搜索數據來得有效。

智能體可以生成自己的搜索查詢,而不僅僅是檢索原始問題,例如將 “How does Calvin stay motivated when faced with setbacks?” 轉化為 “Calvin motivation setbacks”,並且智能體可以持續搜索直到找到正確數據。

智能體是否“記住”了某事,取決於它能否在需要時成功檢索到正確信息。因此,更重要的是考慮智能體是否能夠有效使用檢索工具(知道何時以及如何調用),而不是糾結於具體的檢索機制(如知識圖譜還是向量數據庫)。

Letta 還提出,目前智能體能夠非常高效地使用文件系統工具,在很大程度上是因為後期優化重點偏向智能體的編碼任務。一般來說,越簡單的工具越可能出現在智能體的訓練數據中,也越容易被有效利用。雖然更復雜的方案(如知識圖譜)在特定領域可能有用,但它們可能更難被 大模型(智能體)理解。

“智能體的記憶能力取決於智能體的架構、工具和底層模型。比較智能體框架與記憶工具,就像比較蘋果和橘子,因為框架、工具和模型都是可以自由組合的。”Letta 說道。

那如何正確評估智能體記憶能力呢?

Letta 先推薦了自家的 Letta Memory Benchmark(Letta 排行榜) 提供了同類對比(apples-to-apples),在保持框架(目前僅 Letta)和工具不變的情況下,評估不同模型在記憶管理方面的能力。該基準在動態上下文中即時生成記憶交互場景,從而評估智能體記憶,而不僅僅是檢索能力(如 LoCoMo)。

然後指出,另一種方法是直接評估智能體在需要記憶的具體任務中的整體表現。例如 Terminal-Bench,測試智能體解決複雜、長時間運行任務的能力。由於任務時間長且需要處理遠超上下文窗口的信息,智能體可以利用記憶跟蹤任務狀態與進度。

最後,Letta 總結道,對於設計良好的智能體,即便是簡單的文件系統工具,也足以在 LoCoMo 這樣的檢索基準中表現優異。

參考鏈接:

https://x.com/sarahwooders/status/1955352237490008570?s=46

https://www.letta.com/blog/benchmarking-ai-agent-memory

本文來自微信公眾號“InfoQ”,作者:褚杏娟 ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論