Một cư dân mạng phàn nàn: "Tôi thực sự mệt mỏi khi thấy những công ty khởi nghiệp công nghệ chỉ mong muốn có kết quả nhanh chóng, nói dối về dữ liệu để làm hài lòng các nhà đầu tư mạo hiểm và tự gắn cho mình cái mác 'SOTA'".
Câu chuyện bắt nguồn từ một bài báo được công bố vào cuối tháng 4 bởi dự án bộ nhớ tác nhân mã nguồn mở nổi tiếng Mem0. Trong bài báo, đội ngũ dự án đã đề xuất một phiên bản nâng cao của Mem0, một kiến trúc mở rộng rộng và tuyên bố đã đánh bại tất cả các đối thủ cạnh tranh trên LOCOMO. Trong đó, Mem0 đã đạt được cải tiến 26% so với OpenAI về chỉ báo"LLM-as-a-Judge". (URL bài báo: https://arxiv.org/abs/2504.19413)
Vào ngày 13 tháng 8, theo giờ địa phương, Sarah Wooders, đồng sáng lập kiêm giám đốc công nghệ của Letta AI, đội ngũ sáng lập của một nền tảng bộ nhớ thông minh phổ biến khác là MemGPT, đã công khai cáo buộc:
Vài tháng trước, Mem0 đã công bố dữ liệu chuẩn cho MemGPT và tuyên bố đã đạt đến mức "SOTA" trong bộ nhớ.
Thật kỳ lạ là tôi không biết họ thực sự chạy thử nghiệm này như thế nào, vì không thể thực hiện được nếu không có những thay đổi lớn đối với MemGPT (họ không trả lời câu hỏi của chúng tôi về cách họ chạy thử nghiệm).
arXiv không phải là nền tảng được bình duyệt, vì vậy thật không may là trong những năm gần đây, các công ty được tùy ý công bố bất kỳ "nghiên cứu" nào họ muốn cho mục đích tiếp thị.
Chúng tôi dễ dàng vượt qua dữ liệu chuẩn của họ bằng một số công cụ hệ thống tệp đơn giản - điều này cũng cho thấy rằng bản thân chuẩn không có nhiều ý nghĩa.
"Mem0 tuyên bố họ đánh bại mọi đối thủ trên LOCOMO, nhưng hóa ra họ đã hoàn toàn làm hỏng việc triển khai của đối thủ. Sau đó, họ dùng những kết quả kém cỏi này để chứng minh sự vượt trội của mình. Khi Letta và Zep chạy đúng các bài benchmark, cả hai đều đạt điểm cao hơn 10% so với kết quả tốt nhất của Mem0", một cư dân mạng bình luận. "Có vô số 'sản phẩm giả' trong ngành này. Tôi hiểu các công ty phóng đại tính năng để thu hút vốn đầu tư mạo hiểm, nhưng nói dối trong các bài báo khoa học thì thật đáng thương hại."
Sự trỗi dậy của hai "dòng chảy hàng đầu"
Mem0 và Letta đều được tạo ra để giải quyết vấn đề bộ nhớ dài hạn của các mô hình lớn.
Kể từ khi GPT-4 ra đời, các mô hình lớn bị giới hạn bởi độ dài ngữ cảnh cố định. Thiếu bộ nhớ dài hạn, các mô hình và tác nhân lớn gặp phải những hạn chế đáng kể: chúng quên thông tin, không học hỏi và cải thiện theo thời gian, và mất tập trung vào nhiệm vụ dài và phức tạp.
Để đạt được mục tiêu này, vào năm 2023, một đội ngũ nghiên cứu tại Đại học California, Berkeley (UC Berkeley) đã đề xuất một hệ thống cải tiến, MemGPT. Dựa trên các khái niệm từ hệ điều hành (HĐH) truyền thống, hệ thống này tích hợp quản lý bộ nhớ cấp tác nhân. Bằng cách xây dựng một hệ thống phân cấp bộ nhớ, tác nhân chủ động quản lý thông tin nào được lưu giữ trong ngữ cảnh trực tiếp (bộ nhớ lõi) và thông tin nào được lưu trữ trong các lớp bên ngoài (bộ nhớ hội thoại, bộ nhớ lưu trữ và tệp ngoài) để truy xuất theo yêu cầu. Điều này cho phép tác nhân duy trì dung lượng bộ nhớ không giới hạn trong một cửa sổ ngữ cảnh cố định.
Nghiên cứu của MemGPT nhanh chóng thu hút sự chú ý của cộng đồng. Bài viết về MemGPT đã xuất hiện trên trang chủ Hacker News trong 48 giờ và đã tích lũy được 17,8 nghìn sao sau khi mã nguồn mở.
Khi dự án mã nguồn mở tiến triển, đội ngũ đã thành lập một công ty có tên là Letta để duy trì khung mã nguồn mở MemGPT và thúc đẩy việc thương mại hóa cũng như triển khai kỹ thuật. MemGPT ban đầu cũng được nâng cấp lên Letta.
Công ty khởi nghiệp AI rất được mong đợi này, được thành lập bởi hai nghiên cứu sinh tiến sĩ Sarah Wooders và Charles Packer tại Berkeley, đã huy động được 10 triệu đô la vốn hạt giống do Astasia Myers của Felicis dẫn đầu với mức định giá 70 triệu đô la. Công ty cũng nhận được sự hỗ trợ từ sê-ri các nhà đầu tư thiên thần trong lĩnh vực AI, trong đó Jeff Dean của Google, Clem Delangue của Hugging Face, Cristóbal Valenzuela của Runway, và Robert Nishihara của Anyscale.
Ngày nay, nhiều hệ thống tác nhân thông minh triển khai thiết kế của MemGPT.
Mem0 được thành lập bởi các kỹ sư người Ấn Độ Taranjeet Singh và Deshraj Yadav dựa trên kinh nghiệm xây dựng nền tảng Retrieval Augmented Generation (RAG) mã nguồn mở Embedchain, đã được tải xuống hơn 2 triệu lần.
Theo hồ sơ của YC, Singh gia nhập Khatabook (YC S18) với tư cách là kỹ sư tăng trưởng đầu tiên và nhanh chóng thăng tiến lên vị trí quản lý sản phẩm cấp cao. Sự nghiệp kỹ sư phần mềm của anh bắt đầu tại Paytm (PayPal của Ấn Độ), chứng kiến sự vươn lên chóng mặt của công ty này và trở thành một cái tên quen thuộc. Anh đã phát triển một ứng dụng gia sư hỗ trợ AI, được giới thiệu tại Google I/O. Anh đồng sáng lập EvalAI với Deshraj, một nền tảng thay thế Kaggle mã mã nguồn mở với 1,6 nghìn sao trên GitHub. Anh cũng là người sáng lập cửa hàng ứng dụng GPT đầu tiên, hiện đã vượt qua 1 triệu người dùng.
Yadav có chuyên môn sâu rộng về AI và cơ sở hạ tầng học máy. Trước đây, ông đã lãnh đạo nền tảng AI Autopilot của Tesla, hỗ trợ đào tạo quy mô lớn, đánh giá mô hình, giám sát và khả năng quan sát trong quá trình phát triển xe tự hành hoàn toàn của Tesla. Trước đó, Deshraj đã tạo ra nền tảng học máy mã nguồn mở EvalAI cho luận văn thạc sĩ của mình tại Georgia Tech và đã xuất bản các bài báo trên các tạp chí như CVPR, ECCV và AAAI.
Mem0 cho rằng việc chỉ mở rộng cửa sổ ngữ cảnh của mô hình sẽ chỉ làm chậm vấn đề, khiến mô hình chậm hơn và tốn kém hơn, trong khi vẫn bỏ sót các chi tiết quan trọng. Đội ngũ đã chọn giải quyết vấn đề thông qua một kiến trúc bộ nhớ đa năng, mở rộng. Mem0 hoạt động như một lớp bộ nhớ giữa các ứng dụng AI và các mô hình lớn, rút, tích hợp và truy xuất thông tin quan trọng từ các cuộc trò chuyện của người dùng một cách linh hoạt.
Mem0 cung cấp API lớp bộ nhớ nhẹ và tìm kiếm vector. Chỉ trong vòng một ngày kể từ khi mã nguồn mở, Mem0 đã nhận được 9,7 nghìn sao và hiện đã tích lũy được 38,2 nghìn sao. Các tổ chức như Netflix, Lemonade và Rocket Money đã áp dụng Mem0 để nâng cao khả năng bộ nhớ dài hạn của hệ thống AI.
Ngoài ra, nhiều công cụ chuyên dụng đã xuất hiện trong ngành, sử dụng "bộ nhớ" như một dịch vụ có thể cắm thêm để cung cấp cho các tác nhân thông minh khả năng lưu trữ và truy xuất thông tin. Các phương pháp phổ biến bao gồm sử dụng đồ thị tri thức hoặc cơ sở dữ liệu vector.
Đánh giá hiệu quả của các công cụ ghi nhớ này một cách riêng lẻ là vô cùng khó khăn. Chất lượng bộ nhớ của một tác nhân thường phụ thuộc nhiều vào khả năng quản lý ngữ cảnh và gọi công cụ của hệ thống tác nhân cơ bản hơn là bản thân công cụ ghi nhớ. Ví dụ, ngay cả khi một công cụ tìm kiếm về mặt lý thuyết mạnh hơn, nếu tác nhân không thể sử dụng nó một cách hiệu quả, chẳng hạn do các gợi ý được thiết kế kém hoặc thiếu các ví dụ liên quan trong dữ liệu huấn luyện, thì nó sẽ không hoạt động tốt trong ngữ cảnh bộ nhớ.
Do đó, đánh giá các công cụ ghi nhớ chủ yếu tập trung vào các chuẩn mực truy xuất như LoCoMo hơn là khả năng ghi nhớ thực tế của các tác nhân thông minh.
LoCoMo là một chuẩn mực trả lời câu hỏi để truy xuất thông tin từ các cuộc trò chuyện dài, được thiết kế đặc biệt để đánh đánh giá khả năng ghi nhớ hội thoại dài hạn của các mô hình lớn. Nó được phát triển bởi đội ngũ Snap Research. Mỗi mẫu bao gồm hai người nói giả định và một bản ghi chép cuộc trò chuyện được tạo bởi AI, có dấu thời gian. Nhiệm vụ là trả lời các câu hỏi thực tế về người nói hoặc chính cuộc trò chuyện.
Sự bất đồng ở đây là gì?
Trong một bài báo được công bố vào cuối tháng 4, đội ngũ Mem0 đã giới thiệu một biểu diễn bộ nhớ dựa trên đồ thị dựa trên công trình trước đó để nâng cao khả năng mô hình hóa quan hệ.
Trước đây, giai đoạn rút của Mem0 xử lý thông điệp và bối cảnh lịch sử để tạo ra các ký ức mới. Giai đoạn cập nhật sau đó so sánh các ký ức rút với các ký ức tương tự hiện có và thực hiện các hành động tương ứng thông qua cơ chế gọi công cụ. Cơ sở dữ liệu đóng vai trò là kho lưu trữ cốt lõi, cung cấp bối cảnh cần thiết để xử lý và lưu trữ các ký ức được cập nhật.
Sau khi giới thiệu bộ nhớ dựa trên đồ thị, giai đoạn rút sử dụng một mô hình lớn để chuyển đổi các tin nhắn hội thoại thành các bộ ba thực thể và mối quan hệ; giai đoạn cập nhật áp dụng cơ chế phát hiện và giải quyết xung đột khi tích hợp thông tin mới vào đồ thị kiến thức hiện có.
Trong quá trình triển khai, Mem0g sử dụng Neo4j làm cơ sở dữ liệu đồ thị nền tảng. Nó tận dụng một rút và mô-đun cập nhật mô hình lớn, cùng với GPT-4o-mini có thể gọi hàm, rút thông tin có cấu trúc từ văn bản phi cấu trúc. Bằng cách kết hợp các biểu diễn dựa trên đồ thị với nhúng ngữ nghĩa và rút thông tin dựa trên mô hình lớn, Mem0 đạt được cả sự phong phú về cấu trúc cần thiết cho suy luận phức tạp và tính linh hoạt về ngữ nghĩa cần thiết cho việc hiểu ngôn ngữ tự nhiên.
Trong tiêu chuẩn LOCOMO, Mem0 cho thấy nó luôn vượt qua sáu phương pháp bộ nhớ hàng đầu, với hiệu suất sau: độ chính xác phản hồi cao hơn 26% so với OpenAI, độ trễ thấp hơn 91% so với phương pháp cảnh đầy đủ và sử dụng mã thông báo ít hơn 90%.
Hình bên dưới so sánh độ trễ phản hồi tổng thể của phương pháp bộ nhớ khác nhau ở p50 và p95, trong đó độ trễ của suy luận mô hình lớn.
Đội ngũ Mem0 cho rằng điều quan trọng là phải điều chỉnh linh hoạt cấu trúc bộ nhớ theo kịch bản lý luận cụ thể khi triển khai tác nhân AI:
Đường truyền bộ nhớ dày đặc của Mem0 vượt trội về khả năng phản hồi nhanh và truy vấn đơn giản, giảm thiểu mức tiêu thụ token và chi phí tính toán. Biểu diễn đồ thị có cấu trúc được cải tiến của nó phân tích rõ ràng các mối quan hệ phức tạp, hỗ trợ sắp xếp sự kiện tinh vi và tích hợp ngữ cảnh phong phú mà không làm giảm hiệu suất. Kết hợp với nhau, hai yếu tố này tạo nên một bộ công cụ bộ nhớ linh hoạt, thích ứng với nhiều nhu cầu hội thoại khác nhau và có khả năng triển khai quy mô lớn.
Vào tháng 6, Sarah đã hỏi Mem0 trên GitHub cách lấy được dữ liệu liên quan của MemGPT nhưng không nhận được phản hồi.
"Một nhà cung cấp công cụ bộ nhớ, Mem0, đã công bố những kết quả gây tranh cãi khi tuyên bố đã chạy MemGPT trên LoCoMo. Kết quả này gây khó hiểu vì chúng tôi (đội ngũ MemGPT ban đầu) không thể tìm ra phương pháp đưa dữ liệu LoCoMo vào MemGPT/Letta mà không cần phải tái cấu trúc mã nguồn. Mem0 đã không phản hồi yêu cầu làm rõ của chúng tôi về cách tính toán điểm chuẩn, cũng như không cung cấp một triển khai MemGPT đã được sửa đổi hỗ trợ việc khôi phục dữ liệu LoCoMo", Letta cho biết.
Vào ngày 12 tháng 8, giờ địa phương, Letta đã đăng một bài viết cho biết họ đạt được tỷ lệ chính xác 74,0% trên LoCoMo chỉ bằng cách lưu trữ lịch sử cuộc trò chuyện vào các tệp (thay vì sử dụng bộ nhớ chuyên dụng hoặc các công cụ truy xuất). Điều này cho thấy:
Các tiêu chuẩn bộ nhớ trước đó có thể không có nhiều ý nghĩa;
Bộ nhớ phụ thuộc nhiều vào cách tác nhân quản lý ngữ cảnh hơn là cơ chế truy xuất cụ thể được sử dụng.
Letta giải thích rằng mặc dù không có cách nào gốc để nhập lịch sử trò chuyện của LoCoMo, nhưng gần đây họ đã bổ sung chức năng hệ thống tệp cho các tác nhân Letta (bao gồm cả tác nhân MemGPT). "Chúng tôi tò mò muốn xem Letta sẽ hoạt động như thế nào nếu chúng tôi chỉ lưu trữ lịch sử trò chuyện của LoCoMo vào một tệp mà không cần sử dụng bất kỳ công cụ bộ nhớ chuyên dụng nào."
Sau khi tệp được gắn vào tác nhân Letta, tác nhân có thể sử dụng các công cụ thao tác tệp sau:
- grep
- tìm kiếm_tệp
- mở
- đóng
Dữ liệu hội thoại được lưu trữ trong một tệp và được tải lên tác nhân. Letta tự động phân tích cú pháp và nhúng nội dung tệp để tìm kiếm ngữ nghĩa (vector). Tác nhân có thể thực hiện tìm kiếm ngữ nghĩa bằng search_files, thực hiện so khớp văn bản bằng grep và trả lời câu hỏi bằng answer_question.
Để phù hợp với thử nghiệm MemGPT ban đầu, Letta đã sử dụng GPT-4o mini làm mô hình. Do khả năng hạn chế của GPT-4o mini, Letta đã trao cho tác nhân một số quyền tự chủ, hạn chế các mẫu gọi công cụ của nó thông qua các quy tắc: trước tiên nó phải gọi search_files để tìm kiếm tệp, sau đó tiếp tục tìm kiếm cho đến khi đạt đến điểm gọi answer_question và kết thúc. Tác nhân tự quyết định nội dung cần tìm kiếm và số lần tìm kiếm.
"Tác nhân đơn giản này đạt 74,0% trên LoCoMo với GPT-4o mini và điều chỉnh gợi ý tối thiểu, cao hơn đáng kể so với 68,5% được Mem0 báo cáo cho phiên bản bộ nhớ đồ thị tốt nhất của nó."
Letta: Khả năng quan trọng hơn công cụ
Letta cho rằng các tác nhân ngày nay rất hiệu quả trong việc sử dụng các công cụ, đặc biệt là những công cụ có khả năng xuất hiện trong dữ liệu huấn luyện, chẳng hạn như các thao tác hệ thống tệp. Do đó, nhiều công cụ bộ nhớ chuyên biệt ban đầu được thiết kế cho việc truy xuất từng bước nhảy kém hiệu quả hơn so với việc chỉ cho phép tác nhân tự tìm kiếm dữ liệu theo từng bước lặp.
Thay vì chỉ lấy câu hỏi gốc, tác nhân có thể tạo ra các truy vấn tìm kiếm riêng, chẳng hạn như chuyển đổi "Calvin duy trì động lực như thế nào khi gặp phải trở ngại?" thành "Trở ngại về động lực của Calvin" và tác nhân có thể tiếp tục tìm kiếm cho đến khi tìm thấy dữ liệu chính xác.
Việc một tác nhân có "ghi nhớ" được điều gì đó hay không phụ thuộc vào việc nó có thể truy xuất thành công thông tin chính xác khi cần hay không. Do đó, điều quan trọng hơn là xem xét liệu tác nhân có thể sử dụng hiệu quả các công cụ truy xuất (biết khi nào và cách gọi chúng) hay không, thay vì tập trung vào cơ chế truy xuất cụ thể (chẳng hạn như đồ thị tri thức hoặc cơ sở dữ liệu vector).
Letta cũng lưu ý rằng khả năng hiện tại của các tác nhân thông minh trong việc sử dụng các công cụ hệ thống tệp phần lớn là do các tối ưu hóa sau này tập trung vào nhiệm vụ mã hóa của tác nhân. Nhìn chung, các công cụ đơn giản hơn có nhiều khả năng xuất hiện trong dữ liệu huấn luyện của tác nhân và do đó có nhiều khả năng được sử dụng hiệu quả hơn. Mặc dù các giải pháp phức tạp hơn (chẳng hạn như biểu đồ kiến thức) có thể hữu ích trong các lĩnh vực cụ thể, nhưng chúng có thể khó hiểu hơn đối với các mô hình (và tác nhân) lớn hơn.
“Khả năng bộ nhớ của một tác nhân phụ thuộc vào kiến trúc, công cụ và mô hình nền tảng của nó. So sánh các khuôn khổ tác nhân và công cụ bộ nhớ cũng giống như so sánh táo với cam, bởi vì các khuôn khổ, công cụ và mô hình đều có thể tự do cấu thành”, Letta nói.
Vậy làm thế nào để chúng ta đánh giá chính xác khả năng ghi nhớ của một tác nhân thông minh?
Letta ban đầu đề xuất Letta Memory Benchmark (Letta Leaderboard), cung cấp các so sánh tương đương, đánh giá khả năng quản lý bộ nhớ của các mô hình khác nhau trong khi vẫn duy trì cùng một khuôn khổ (hiện chỉ có Letta) và các công cụ. Điểm chuẩn này tạo ra các kịch bản tương tác bộ nhớ trong một bối cảnh động, đánh giá bộ nhớ của tác nhân thay vì chỉ khả năng truy xuất (như trong LoCoMo).
Bài báo sau đó chỉ ra một phương pháp khác là đánh giá trực tiếp hiệu suất tổng thể của tác nhân đối với nhiệm vụ cụ thể đòi hỏi bộ nhớ. Ví dụ, Terminal-Bench kiểm tra khả năng giải quyết nhiệm vụ phức tạp, mất nhiều thời gian của tác nhân. Vì nhiệm vụ dài và yêu cầu xử lý thông tin vượt xa cửa sổ ngữ cảnh, tác nhân có thể sử dụng bộ nhớ để theo dõi trạng thái và tiến độ nhiệm vụ.
Cuối cùng, Letta kết luận rằng đối với các tác nhân được thiết kế tốt, ngay cả các công cụ hệ thống tệp đơn giản cũng đủ để hoạt động tốt trên các tiêu chuẩn truy xuất như LoCoMo.
Liên kết tham khảo:
https://x.com/sarahwooders/status/1955352237490008570?s=46
https://www.letta.com/blog/benchmarking-ai-agent-memory
Bài viết này được trích từ tài khoản công khai WeChat "InfoQ" , do Chu Xingjuan viết và được 36Kr xuất bản với sự cho phép.






