Tác giả: 0XNATALIE
Kể từ nửa cuối năm nay, chủ đề AI Agent đã thu hút sự quan tâm ngày càng tăng. Ban đầu, chatbot AI terminal of truths đã thu hút sự chú ý rộng rãi nhờ những bài đăng và phản hồi hài hước trên , và nhận được khoản tài trợ 50.000 USD từ nhà sáng lập a16z Marc Andreessen. Được truyền cảm hứng từ nội dung được đăng tải, một số người đã tạo ra token GOAT, tăng giá trên 10.000% chỉ trong vòng 24 giờ. Chủ đề AI Agent sau đó đã thu hút sự quan tâm của cộng đồng Web3. Sau đó, quỹ giao dịch phi tập trung AI đầu tiên dựa trên Solana, ai16z, ra mắt và giới thiệu khuôn khổ phát triển AI Agent Eliza, dẫn đến cuộc tranh cãi về token chữ hoa và chữ thường. Tuy nhiên, cộng đồng vẫn chưa rõ ràng về khái niệm AI Agent: Bản chất của AI Agent là gì? Nó khác gì so với bot giao dịch Telegram?
Nguyên lý hoạt động: Cảm nhận, suy luận và ra quyết định tự chủ
AI Agent là một hệ thống đại lý thông minh dựa trên mô hình ngôn ngữ lớn (LLM), có khả năng cảm nhận môi trường, thực hiện suy luận và ra quyết định, và hoàn thành các nhiệm vụ phức tạp bằng cách gọi các công cụ hoặc thực hiện các hoạt động. Quy trình hoạt động: Mô-đun cảm nhận (thu thập đầu vào) → LLM (hiểu, suy luận và lập kế hoạch) → Gọi công cụ (thực hiện nhiệm vụ) → Phản hồi và tối ưu hóa (xác minh và điều chỉnh).
Cụ thể, AI Agent đầu tiên thu thập dữ liệu từ môi trường bên ngoài (như văn bản, âm thanh, hình ảnh, v.v.) thông qua mô-đun cảm nhận và chuyển đổi chúng thành thông tin có cấu trúc có thể xử lý. LLM, với vai trò là thành phần cốt lõi, cung cấp khả năng hiểu và tạo ra ngôn ngữ tự nhiên mạnh mẽ, đóng vai trò "bộ não" của hệ thống. Dựa trên dữ liệu đầu vào và kiến thức hiện có, LLM thực hiện suy luận logic, tạo ra các giải pháp tiềm năng hoặc lập kế hoạch hành động. Sau đó, AI Agent thực hiện các nhiệm vụ cụ thể bằng cách gọi các công cụ, plugin hoặc API bên ngoài, và dựa trên phản hồi để xác minh và điều chỉnh kết quả, tạo thành một vòng lặp tối ưu hóa.
Trong các ứng dụng Web3, AI Agent khác bot giao dịch Telegram hoặc các kịch bản tự động hóa như thế nào? Lấy ví dụ về arbitrage, người dùng muốn thực hiện giao dịch arbitrage khi lợi nhuận lớn hơn 1%. Trong bot giao dịch Telegram hỗ trợ arbitrage, người dùng đặt chiến lược giao dịch với điều kiện lợi nhuận lớn hơn 1% và Bot sẽ bắt đầu thực hiện. Tuy nhiên, khi thị trường biến động thường xuyên và cơ hội arbitrage liên tục thay đổi, những Bot này thiếu khả năng đánh giá rủi ro, chỉ cần đáp ứng điều kiện lợi nhuận lớn hơn 1% là sẽ thực hiện arbitrage. Ngược lại, AI Agent có thể tự động điều chỉnh chiến lược. Ví dụ, khi lợi nhuận của một giao dịch vượt quá 1% nhưng thông qua phân tích dữ liệu đánh giá rủi ro quá cao, có thể dẫn đến thua lỗ do thị trường thay đổi đột ngột, nó sẽ quyết định không thực hiện giao dịch arbitrage này.
Do đó, AI Agent có khả năng tự thích ứng, và lợi thế cốt lõi của nó là khả năng tự học hỏi và ra quyết định tự chủ, thông qua tương tác với môi trường (như thị trường, hành vi người dùng, v.v.) và điều chỉnh chiến lược hành động dựa trên tín hiệu phản hồi, liên tục cải thiện hiệu quả thực hiện nhiệm vụ. Nó còn có thể dựa trên dữ liệu bên ngoài để ra quyết định theo thời gian thực và tối ưu hóa chiến lược ra quyết định thông qua học tăng cường.
Nghe có vẻ giống như bộ giải quyết vấn đề trong khung ý định? Bản thân AI Agent cũng là sản phẩm dựa trên ý định, nhưng khác với bộ giải quyết vấn đề dựa trên thuật toán chính xác và tính toán toán học nghiêm ngặt, AI Agent ra quyết định dựa trên dữ liệu được đào tạo, thường cần phải thử sai liên tục trong quá trình đào tạo để tiếp cận với giải pháp tối ưu.
Các khuôn khổ AI Agent chủ đạo
Khuôn khổ AI Agent là cơ sở hạ tầng để tạo và quản lý các đại lý thông minh. Hiện nay, các khuôn khổ phổ biến trong Web3 bao gồm Eliza của ai16z, ZerePy của zerebro và GAME của Virtuals.
Eliza là một khuôn khổ AI Agent đa năng, được xây dựng bằng TypeScript, có thể chạy trên nhiều nền tảng (như Discord, Twitter, Telegram, v.v.) và thông qua quản lý bộ nhớ phức tạp, có thể ghi nhớ các cuộc hội thoại và ngữ cảnh trước đó, duy trì tính cách và kiến thức nhất quán. Eliza sử dụng hệ thống RAG (Retrieval Augmented Generation), có thể truy cập cơ sở dữ liệu hoặc tài nguyên bên ngoài để tạo ra câu trả lời chính xác hơn. Ngoài ra, Eliza tích hợp plugin TEE, cho phép triển khai trong môi trường TEE, đảm bảo an toàn và bảo mật dữ liệu.
GAME là khuôn khổ để trao quyền và thúc đẩy AI Agent ra quyết định và hành động tự chủ. Nhà phát triển có thể tùy chỉnh hành vi của đại lý theo nhu cầu của mình, mở rộng chức năng và cung cấp các thao tác tùy chỉnh (như đăng bài trên mạng xã hội, trả lời, v.v.). Các chức năng khác nhau của khuôn khổ, như vị trí môi trường và nhiệm vụ của đại lý, được chia thành nhiều mô-đun để nhà phát triển dễ dàng cấu hình và quản lý. GAME chia quá trình ra quyết định của AI Agent thành hai cấp độ: Lập kế hoạch cấp cao (HLP) và Lập kế hoạch cấp thấp (LLP), chịu trách nhiệm về các nhiệm vụ và quyết định ở các cấp độ khác nhau. Lập kế hoạch cấp cao chịu trách nhiệm thiết lập mục tiêu tổng thể và kế hoạch nhiệm vụ của đại lý, dựa trên mục tiêu, tính cách, thông tin nền tảng và trạng thái môi trường để đưa ra quyết định, xác định độ ưu tiên của các nhiệm vụ. Lập kế hoạch cấp thấp tập trung vào khía cạnh thực thi, chuyển đổi quyết định của lập kế hoạch cấp cao thành các bước thực hiện cụ thể, lựa chọn các chức năng và phương pháp vận hành phù hợp.
ZerePy là một khuôn khổ Python nguồn mở để triển khai AI Agent trên . Khuôn khổ này tích hợp các mô hình ngôn ngữ lớn (LLM) do OpenAI và Anthropic cung cấp, cho phép nhà phát triển xây dựng và quản lý các đại lý truyền thông xã hội, tự động thực hiện các hoạt động như đăng tweet, trả lời tweet, thích, v.v. Mỗi nhiệm vụ có thể được đặt trọng số khác nhau tùy theo mức độ quan trọng. ZerePy cung cấp giao diện dòng lệnh (CLI) đơn giản, giúp nhà phát triển nhanh chóng khởi chạy và quản lý các đại lý. Ngoài ra, khuôn khổ cũng cung cấp mẫu Replit (một nền tảng chỉnh sửa và thực thi mã trực tuyến), cho phép nhà phát triển bắt đầu sử dụng ZerePy mà không cần cấu hình môi trường cục bộ phức tạp.
Tại sao AI Agent lại đối mặt với FUD?
AI Agent dường như thông minh và có thể giảm rào cản gia nhập, nâng cao trải nghiệm người dùng, vậy tại sao cộng đồng lại có FUD? Lý do là vì bản chất, AI Agent vẫn chỉ là một công cụ, hiện tại không thể hoàn thành toàn bộ quy trình công việc, chỉ có thể nâng cao hiệu quả và tiết kiệm thời gian ở một số điểm. Hơn nữa, giai đoạn phát triển hiện tại, vai trò của AI Agent chủ yếu tập trung vào việc giúp người dùng phát hành MEME một cách dễ dàng và vận hành tài khoản truyền thông xã hội. Cộng đồng đùa rằng "tài sản thuộc về Dev, nợ nần thuộc về AI".
Tuy nhiên, chỉ trong tuần này, aiPool đã ra mắt token tiền bán trước với AI Agent, sử dụng công nghệ TEE để thực hiện phi tập trung hóa. Ví của AI Agent trong môi trường TEE được tạo động, đảm bảo an toàn. Người dùng có thể gửi tài sản (ví dụ: SOL) vào ví do AI Agent kiểm soát, sau đó AI Agent sẽ tự động tạo token và khởi chạy pool thanh khoản trên DEX, đồng thời phân phối token cho các nhà đầu tư đủ điều kiện. Toàn bộ quá trình được thực hiện hoàn toàn tự chủ bởi AI Agent trong môi trường TEE, tránh được rủi ro rug pull thường gặp trong DeFi. Điều này cho thấy AI Agent đang dần phát triển. Tôi cho rằng, AI Agent có thể giúp người dùng giảm rào cản, nâng cao trải nghiệm, ngay cả khi chỉ đơn giản là đơn giản hóa một phần quá trình phát hành tài sản, cũng là ý nghĩa. Nhưng từ góc độ vĩ mô của Web3, AI Agent là sản phẩm ngoài chuỗi, hiện chỉ đóng vai trò công cụ hỗ trợ cho các hợp đồng thông minh, vì vậy không cần quá khen ngợi về khả năng của nó. Do thiếu các câu chuyện tạo ra hiệu ứng tài chính đáng kể ngoài MEME trong nửa cuối năm nay, việc AI Agent thu hút sự chú ý xoay quanh MEME là điều bình thường