한 네티즌은 "빠른 결과만 노리는 기술 스타트업들이 벤처 캐피털을 기쁘게 하기 위해 데이터를 속이고 자신들을 'SOTA'라고 부르는 걸 보는 게 정말 지겹다"고 불평했다.
이 이야기는 인기 오픈소스 에이전트 메모리 프로젝트인 Mem0가 4월 말 발표한 논문에서 비롯되었습니다. 이 논문에서 프로젝트팀은 확장 가능한 메모리 중심 아키텍처인 Mem0의 향상된 버전을 제안했으며, LOCOMO 테스트에서 모든 경쟁사를 제쳤다고 주장했습니다. 구체적으로 Mem0는 "LLM-as-a-Judge" 지표에서 OpenAI 대비 26%의 성능 향상을 달성했습니다. (논문 URL: https://arxiv.org/abs/2504.19413)
현지 시각으로 8월 13일, 또 다른 인기 있는 지능형 메모리 프레임 MemGPT의 창립팀인 Letta AI의 공동 창립자이자 CTO인 Sarah Wooders는 공개적으로 다음과 같이 비난했습니다.
몇 달 전, Mem0는 MemGPT에 대한 벤치마크 데이터를 공개하고 메모리에서 "SOTA" 수준에 도달했다고 주장했습니다.
이상하게도, 그들이 실제로 이 벤치마크를 어떻게 실행했는지 전혀 모르겠습니다. MemGPT에 큰 변화를 주지 않고서는 불가능했거든요(실험을 어떻게 실행했는지에 대한 우리의 문의에 응답하지 않았습니다).
arXiv는 동료 평가를 거치지 않는 플랫폼이기 때문에 안타깝게도 최근 몇 년 동안 기업들은 마케팅 목적으로 원하는 "연구"를 자유롭게 게시할 수 있었습니다.
우리는 몇 가지 간단한 파일 시스템 도구를 사용하여 벤치마크 수치를 쉽게 능가했습니다. 이는 벤치마크 자체도 그다지 의미가 없다는 것을 보여줍니다.
"Mem0는 LOCOMO에서 모든 사람을 이겼다고 주장했지만, 알고 보니 경쟁사의 구현 방식을 완전히 망쳐놓은 것이었습니다. 그들은 이러한 부실한 결과를 이용해 자신들의 우월성을 증명했습니다. Letta와 Zep이 벤치마크를 제대로 실행하자 두 사람 모두 Mem0의 최고 결과보다 10% 더 높은 점수를 받았습니다." 한 네티즌은 이렇게 댓글을 남겼습니다. "이 업계에는 '가짜 제품'이 엄청나게 많습니다. 벤처 자금을 얻기 위해 기능을 과장하는 기업들은 이해하지만, 과학 논문에 거짓말을 하는 것은 정말 한심한 짓입니다."
두 개의 "상위 스트림"의 부상
Mem0와 Letta는 모두 대형 모델의 장기 메모리 문제를 해결하기 위해 만들어졌습니다.
GPT-4가 등장한 이후, 대형 모델은 고정된 컨텍스트 길이에 제약을 받아 왔습니다. 장기 메모리가 없는 대형 모델과 에이전트는 심각한 한계에 직면합니다. 정보를 잊어버리고, 시간이 지남에 따라 학습하고 개선하지 못하며, 길고 복잡한 작업에 집중하지 못하는 것입니다.
이를 위해 2023년 캘리포니아 대학교 버클리(UC 버클리) 연구팀은 MemGPT라는 혁신적인 시스템을 제안했습니다. 기존 운영 체제(OS)의 개념을 기반으로 하는 이 시스템은 에이전트 수준의 메모리 관리를 통합합니다. 메모리 계층 구조를 구축함으로써 에이전트는 어떤 정보를 즉각적인 맥락(코어 메모리)에 보관하고 어떤 정보를 외부 계층(대화형 메모리, 보관 메모리, 외부 파일)에 저장하여 필요할 때 검색할 수 있도록 하는지 능동적으로 관리합니다. 이를 통해 에이전트는 고정된 맥락 내에서 무제한의 메모리 용량을 유지할 수 있습니다.
MemGPT의 연구는 빠르게 커뮤니티의 관심을 끌었습니다. MemGPT 논문은 해커 뉴스 홈페이지에 48시간 동안 게시되었고, 오픈소스로 공개된 후 17.8만 개의 별점을 받았습니다.
오픈소스 프로젝트가 진행됨에 따라, 팀은 MemGPT 오픈소스 프레임 유지하고 상용화 및 엔지니어링 구현을 촉진하기 위해 Letta라는 회사를 설립했습니다. 원래 MemGPT도 Letta로 업그레이드되었습니다.
버클리 박사 과정생 사라 우더스와 찰스 패커가 설립한 이 AI 스타트업은 펠리시스(Felicis)의 아스타샤 마이어스가 주도한 시드 투자에서 1천만 달러를 확보했으며, 기업 가치는 7천만 달러에 달합니다. 또한 구글의 제프 딘, 허깅 페이스(Hugging Face)의 클렘 들랑그, 런웨이(Runway)의 크리스토발 발렌수엘라, 애니스케일(Anyscale)의 로버트 니시하라 등 AI 분야 여러 엔젤 투자자들의 지원을 받았습니다.
오늘날 많은 지능형 에이전트 시스템이 MemGPT 설계를 구현하고 있습니다.
Mem0는 인도 엔지니어인 Taranjeet Singh과 Deshraj Yadav가 오픈소스 Retrieval Augmented Generation(RAG) 프레임 Embedchain을 구축한 경험을 바탕으로 설립한 회사입니다. 프레임 200만 번 이상 다운로드되었습니다.
YC 프로필에 따르면, 싱은 카타북(YC S18)의 첫 번째 성장 엔지니어로 입사하여 빠르게 승진하여 시니어 제품 매니저가 되었습니다. 그의 소프트웨어 엔지니어링 경력은 페이티엠(인도의 페이팔)에서 시작하여 페이티엠이 유명 기업으로 급성장하는 모습을 지켜보았습니다. 그는 AI 기반 튜터링 앱을 개발하여 구글 I/O에서 선보였습니다. 그는 데쉬라즈와 함께 GitHub에서 1,600개의 별을 받은 오픈소스 Kaggle 대안 플랫폼인 EvalAI를 공동 설립했습니다. 또한, 사용자 수가 100만 명을 돌파한 최초의 GPT 앱 스토어를 설립했습니다.
야다브는 AI 및 머신러닝(ML) 인프라 분야에 대한 폭넓은 전문 지식을 보유하고 있습니다. 그는 이전에 테슬라의 오토파일럿 AI 플랫폼을 이끌며 테슬라의 완전 자율주행 개발 과정에서 대규모 학습, 모델 평가, 모니터링 및 관측 가능성을 지원했습니다. 이에 앞서 데슈라즈는 조지아텍에서 석사 학위 논문을 위해 오픈소스 머신러닝(ML) 플랫폼인 EvalAI를 개발했으며, CVPR, ECCV, AAAI 등의 저널에 논문을 발표했습니다.
Mem0는 단순히 모델의 컨텍스트 윈도우를 확장하는 것은 문제 해결을 지연시켜 모델 속도와 비용을 증가시키는 동시에 핵심 세부 정보를 간과하게 한다고 생각합니다. 연구팀은 범용 확장 가능 메모리 아키텍처를 통해 이 문제를 해결하기로 결정했습니다. Mem0는 AI 애플리케이션과 대형 모델 간의 메모리 계층 역할을 하며, 사용자 대화에서 중요한 정보를 동적으로 클레임, 통합 및 검색합니다.
Mem0는 가벼운 메모리 계층 API와 벡터 검색 기능을 제공합니다. 오픈 소스 출시 후 하루 만에 9.7만 개의 별을 받았으며, 현재 누적 별 수는 38.2만 개입니다. 넷플릭스, 레모네이드, 로켓 머니와 같은 기업들이 AI 시스템의 장기 메모리 기능을 향상시키기 위해 Mem0를 도입했습니다.
또한, 업계에는 "메모리"를 플러그형 서비스로 활용하여 지능형 에이전트에게 정보를 저장하고 검색할 수 있는 기능을 제공하는 다양한 전문 도구들이 등장했습니다. 일반적인 방법으로는 지식 그래프나 벡터 데이터베이스를 활용하는 것이 있습니다.
이러한 기억 도구의 효과를 단독으로 평가하는 것은 매우 어렵습니다. 에이전트의 기억력은 기억 도구 자체보다는 기반 에이전트 시스템이 맥락을 관리하고 도구를 호출하는 능력에 더 크게 좌우되는 경우가 많습니다. 예를 들어, 어떤 검색 도구가 이론적으로 더 강력하더라도, 예를 들어 잘못 설계된 프롬프트나 훈련 데이터에 관련 예시가 부족한 경우 에이전트가 해당 도구를 효과적으로 사용할 수 없다면, 기억 맥락에서 좋은 성능을 발휘하지 못할 것입니다.
따라서 기억 도구의 평가는 지능형 에이전트의 실제 기억 능력보다는 LoCoMo와 같은 검색 벤치마크에 주로 초점을 맞춥니다.
LoCoMo는 장문 대화 검색을 위한 질의응답 벤치마크로, 특히 대형 모델의 장기 대화 기억 능력을 평가하기 위해 설계되었습니다. Snap Research 팀에서 출시되었습니다. 각 샘플은 두 명의 가상 화자와 AI가 생성하고 시간이 기록된 대화 내용으로 구성됩니다. 이 과제는 화자 또는 대화에서 제기된 사람들에 대한 사실적인 질문에 답하는 것입니다.
의견 불일치는 어디에 있는가?
4월 말에 발표된 논문에서 Mem0 팀은 관계형 모델링 기능을 향상시키기 위해 이전 연구를 바탕으로 한 그래프 기반 메모리 표현을 도입했습니다.
이전에 Mem0의 클레임 단계는 메시지와 과거 맥락을 처리하여 새로운 메모리를 생성했습니다. 그런 다음 업데이트 단계에서는 클레임 메모리를 유사한 기존 메모리와 비교하고 도구 호출 메커니즘을 통해 해당 작업을 실행했습니다. 데이터베이스는 핵심 저장소 역할을 하며 업데이트된 메모리를 처리하고 저장하는 데 필요한 맥락을 제공합니다.
그래프 기반 메모리를 도입한 후, 클레임 단계에서는 대규모 모델을 사용하여 대화 메시지를 엔티티 및 관계 트리플로 변환합니다. 업데이트 단계에서는 새로운 정보를 기존 지식 그래프에 통합할 때 충돌 감지 및 해결 메커니즘을 채택합니다.
Mem0g는 구현 과정에서 Neo4j를 기본 그래프 데이터베이스로 사용합니다. 대규모 모델 클레임 및 업데이트 모듈 과 함수 호출 가능 GPT-4o-mini를 활용하여 비정형 텍스트에서 구조화된 정보를 클레임. 그래프 기반 표현과 시맨틱 임베딩, 그리고 대규모 모델 기반 정보 클레임 결합하여 Mem0는 복잡한 추론에 필요한 구조적 풍부함과 자연어 이해에 필요한 의미적 유연성을 모두 달성합니다.
LOCOMO 벤치마크에서 Mem0는 6가지 주요 메모리 방법보다 지속적으로 우수한 성능을 보였습니다. 성능은 다음과 같습니다. OpenAI보다 26% 더 높은 응답 정확도, 전체 컨텍스트 방법보다 91% 더 낮은 지연 시간, 90% 더 적은 토큰 사용량.
아래 그림은 대규모 모델 추론의 지연 시간을 포함하여 p50과 p95에서 다양한 메모리 방법의 총 반응 지연 시간을 비교한 것입니다.
Mem0 팀은 AI 에이전트의 배포 시 특정 추론 시나리오에 따라 메모리 구조를 유연하게 조정하는 것이 중요하다고 생각합니다.
Mem0의 고밀도 메모리 파이프라인은 빠른 응답과 간단한 쿼리에 탁월하여 토큰 소비와 연산 오버헤드를 최소화합니다. 향상된 구조화된 그래프 표현은 복잡한 관계를 명확하게 분석하고, 정교한 이벤트 순서 지원하며, 효율성을 저해하지 않으면서 풍부한 컨텍스트를 통합합니다. 이 두 가지가 결합되어 다양한 대화 요구에 적응하고 대규모 배포가 가능한 다재다능한 메모리 툴킷을 만들어냅니다.
6월에 Sarah는 GitHub에서 Mem0에 MemGPT의 관련 데이터를 어떻게 얻었는지 물었지만 아무런 답변도 받지 못했습니다.
메모리 도구 공급업체인 Mem0가 LoCoMo에서 MemGPT를 실행했다고 주장하는 논란의 여지가 있는 결과를 발표했습니다. 저희(원래 MemGPT 팀)는 대규모 코드 리팩토링 없이는 LoCoMo 데이터를 MemGPT/Letta에 입력할 방법을 찾지 못했기 때문에 결과가 혼란스럽습니다. Mem0는 벤치마크 계산 방식에 대한 명확한 설명 요청에 응답하지 않았으며, LoCoMo 데이터 백필링을 지원하는 수정된 MemGPT 구현도 제공하지 않았습니다."라고 Letta는 말했습니다.
현지 시각으로 8월 12일, Letta는 대화 내역을 파일에 저장하는 것만으로(특수한 메모리 또는 검색 도구를 사용하는 대신) LoCoMo에서 74.0%의 정확도를 달성했다고 게시했습니다. 이는 다음을 의미합니다.
이전 메모리 벤치마크는 그다지 의미가 없을 수도 있습니다.
기억은 특정 검색 메커니즘보다 에이전트가 맥락을 어떻게 관리하는지에 더 많이 달려 있습니다.
Letta는 LoCoMo의 대화 기록을 가져오는 기본 방법은 없지만, 최근 Letta 에이전트(MemGPT 에이전트 포함)에 파일 시스템 기능을 추가했다고 설명했습니다. "특수 메모리 도구 없이 LoCoMo의 대화 기록을 파일에 저장하면 Letta의 성능이 어떻게 될지 궁금했습니다."
파일이 Letta 에이전트에 마운트되면 에이전트는 다음 파일 조작 도구를 사용할 수 있습니다.
- 그렙
- 검색_파일
- 열려 있는
- 닫다
대화 데이터는 파일에 저장되어 에이전트에 업로드됩니다. Letta는 의미론적(벡터) 검색을 위해 파일 내용을 자동으로 파싱하고 임베드합니다. 에이전트는 search_files를 사용하여 의미론적 검색을 수행하고, grep을 사용하여 텍스트 매칭을 수행하며, answer_question을 사용하여 질문에 답변할 수 있습니다.
원래 MemGPT 실험과 일치시키기 위해 Letta는 GPT-4o mini를 모델로 사용했습니다. GPT-4o mini의 제한된 기능 때문에 Letta는 에이전트에 어느 정도 자율성을 부여하고, 규칙을 통해 도구 호출 패턴을 제한했습니다. 먼저 search_files를 호출하여 파일을 검색한 다음, answer_question을 호출하고 결과를 도출할 때까지 검색을 계속해야 합니다. 에이전트는 무엇을 검색할지, 몇 번 검색할지 독립적으로 결정합니다.
"이 간단한 에이전트는 GPT-4o 미니와 최소한의 힌트 튜닝을 사용하여 LoCoMo에서 74.0%를 달성했습니다. 이는 Mem0가 보고한 최고 그래프 메모리 버전인 68.5%보다 상당히 높습니다."
레타: 도구보다 능력이 더 중요하다
레타는 오늘날의 에이전트들이 도구, 특히 파일 시스템 작업과 같이 훈련 데이터에 나타날 가능성이 높은 도구들을 사용하는 데 매우 효율적이라고 주장합니다. 따라서 단일 홉 검색을 위해 설계된 많은 특수 메모리 도구들은 에이전트가 스스로 데이터를 반복적으로 검색하도록 하는 것보다 덜 효과적입니다.
에이전트는 단순히 원래 질문을 검색하는 것이 아니라, "캘빈은 좌절에 직면했을 때 어떻게 동기를 유지하나요?"를 "캘빈의 동기 부여 좌절"로 변환하는 등 자체적인 검색어를 생성할 수 있으며, 에이전트는 올바른 데이터를 찾을 때까지 검색을 계속할 수 있습니다.
에이전트가 무언가를 "기억"하는지는 필요할 때 정확한 정보를 성공적으로 검색할 수 있는지 여부에 달려 있습니다. 따라서 특정 검색 메커니즘(예: 지식 그래프나 벡터 데이터베이스)에 집중하기보다는 에이전트가 검색 도구(언제 어떻게 호출해야 하는지 아는 것)를 효과적으로 사용할 수 있는지 여부를 고려하는 것이 더 중요합니다.
레타는 지능형 에이전트가 파일 시스템 도구를 사용할 수 있는 현재 능력은 이후 최적화가 에이전트의 코딩 작업에 집중되었기 때문이라고 지적했습니다. 일반적으로 더 간단한 도구가 에이전트의 훈련 데이터에 나타날 가능성이 더 높으므로 효과적으로 활용될 가능성이 더 높습니다. 지식 그래프와 같은 더 복잡한 솔루션은 특정 도메인에서는 유용할 수 있지만, 더 큰 모델(및 에이전트)이 이해하기는 더 어려울 수 있습니다.
"에이전트의 메모리 성능은 아키텍처, 도구, 그리고 기반 모델에 따라 달라집니다. 에이전트 프레임 와 메모리 도구를 비교하는 것은 마치 사과와 오렌지를 비교하는 것과 같습니다. 프레임, 도구, 그리고 모델은 모두 자유롭게 구성될 수 있기 때문입니다."라고 레타는 말했습니다.
그러면 지능형 에이전트의 기억 능력을 올바르게 평가하려면 어떻게 해야 할까요?
Letta는 Letta 메모리 벤치마크(Letta Leaderboard)를 처음 추천했습니다. 이 벤치마크는 프레임(현재는 Letta만 제공)와 도구를 유지하면서 다양한 모델의 메모리 관리 성능을 평가하여 동적인 비교를 제공합니다. 이 벤치마크는 동적 맥락에서 메모리 상호작용 시나리오를 생성하여 LoCoMo처럼 단순한 검색 기능뿐 아니라 에이전트의 메모리를 평가합니다.
이 논문은 또 다른 접근법으로 기억력이 필요한 특정 작업에 대한 에이전트의 전반적인 성과를 직접 평가하는 것을 제시합니다. 예를 들어, 터미널 벤치(Terminal-Bench)는 에이전트가 복잡하고 오래 걸리는 작업을 해결하는 능력을 테스트합니다. 이러한 작업은 시간이 오래 걸리고 맥락 창을 훨씬 넘어서는 정보 처리가 필요하기 때문에, 에이전트는 메모리를 사용하여 작업 상태와 진행 상황을 추적할 수 있습니다.
마지막으로 Letta는 잘 설계된 에이전트의 경우 간단한 파일 시스템 도구라도 LoCoMo와 같은 검색 벤치마크에서 좋은 성능을 발휘하기에 충분하다고 결론지었습니다.
참조 링크:
https://x.com/sarahwooders/status/1955352237490008570?s=46
https://www.letta.com/blog/벤치마킹-ai-에이전트-메모리
본 기사는 추싱쥐안(Chu Xingjuan)이 작성하고 36Kr이 허가를 받아 게시한 위챗 공개 계정 "InfoQ" 의 기사입니다.




