Tác giả: 0XNATALIE
Từ nửa cuối năm nay, chủ đề về AI Agent đã thu hút sự quan tâm ngày càng tăng. Ban đầu, AI chatbot terminal of truths đã thu hút sự chú ý rộng rãi nhờ những bài đăng và phản hồi hài hước trên X (tương tự như "Roberta" trên Weibo), và nhận được khoản tài trợ 50.000 USD từ nhà sáng lập a16z Marc Andreessen. Được truyền cảm hứng từ nội dung được phát hành, một số người đã tạo ra GOAT token, tăng trưởng hơn 10.000% trong vòng 24 giờ. Chủ đề AI Agent sau đó đã thu hút sự quan tâm của cộng đồng Web3. Sau đó, ai16z, quỹ DeFi AI đầu tiên dựa trên Solana, đã ra mắt khung phát triển AI Agent Eliza và gây ra cuộc tranh cãi về token chữ hoa và chữ thường.
Nguyên lý hoạt động: Cảm nhận, suy luận và ra quyết định tự chủ
AI Agent là một hệ thống đại lý thông minh dựa trên mô hình ngôn ngữ lớn (LLM), có khả năng cảm nhận môi trường, thực hiện suy luận và ra quyết định, và hoàn thành các nhiệm vụ phức tạp bằng cách gọi các công cụ hoặc thực hiện các hoạt động. Quy trình hoạt động: Mô-đun cảm nhận (thu thập đầu vào) → LLM (hiểu, suy luận và lập kế hoạch) → Gọi công cụ (thực hiện nhiệm vụ) → Phản hồi và tối ưu hóa (xác minh và điều chỉnh).
Cụ thể, AI Agent đầu tiên thu thập dữ liệu từ môi trường bên ngoài (như văn bản, âm thanh, hình ảnh, v.v.) thông qua mô-đun cảm nhận và chuyển đổi chúng thành thông tin có cấu trúc có thể xử lý. LLM, với vai trò là thành phần cốt lõi, cung cấp khả năng hiểu và tạo ra ngôn ngữ tự nhiên mạnh mẽ, đóng vai trò "bộ não" của hệ thống. Dựa trên dữ liệu đầu vào và kiến thức hiện có, LLM thực hiện suy luận logic, tạo ra các giải pháp tiềm năng hoặc lập kế hoạch hành động. Sau đó, AI Agent hoàn thành các nhiệm vụ cụ thể bằng cách gọi các công cụ, phần mở rộng hoặc API bên ngoài, và dựa trên phản hồi để xác minh và điều chỉnh kết quả, tạo thành một vòng lặp tối ưu hóa.
Trong các ứng dụng Web3, AI Agent khác biệt với Telegram trading bots hoặc các kịch bản tự động như thế nào? Lấy ví dụ về arbitrage, người dùng muốn thực hiện giao dịch arbitrage khi lợi nhuận lớn hơn 1%. Trong Telegram trading bots hỗ trợ arbitrage, người dùng đặt chiến lược giao dịch với điều kiện lợi nhuận lớn hơn 1% và Bot sẽ bắt đầu thực hiện. Tuy nhiên, khi thị trường biến động thường xuyên và cơ hội arbitrage liên tục thay đổi, những Bot này thiếu khả năng đánh giá rủi ro và chỉ cần đáp ứng điều kiện lợi nhuận lớn hơn 1% là sẽ thực hiện arbitrage. Ngược lại, AI Agent có thể tự động điều chỉnh chiến lược. Ví dụ, khi lợi nhuận của một giao dịch vượt quá 1% nhưng thông qua phân tích dữ liệu đánh giá rủi ro quá cao, có thể dẫn đến thua lỗ do thị trường thay đổi đột ngột, nó sẽ quyết định không thực hiện giao dịch arbitrage này.
Do đó, AI Agent có khả năng tự thích ứng, và lợi thế cốt lõi của nó là khả năng tự học và ra quyết định tự chủ, thông qua tương tác với môi trường (như thị trường, hành vi người dùng, v.v.), điều chỉnh chiến lược hành động dựa trên tín hiệu phản hồi, liên tục nâng cao hiệu quả thực hiện nhiệm vụ. Nó cũng có thể dựa trên dữ liệu bên ngoài để ra quyết định theo thời gian thực và liên tục tối ưu hóa chiến lược ra quyết định thông qua học tăng cường.
Nói như vậy, có vẻ như nó giống như bộ giải quyết vấn đề trong khung ý định? AI Agent cũng là sản phẩm dựa trên ý định, nhưng khác với bộ giải quyết vấn đề trong khung ý định là, bộ giải quyết vấn đề dựa trên các thuật toán chính xác, có tính toán toán học nghiêm ngặt, trong khi quyết định của AI Agent phụ thuộc vào dữ liệu được đào tạo , thường cần phải thử sai liên tục trong quá trình đào tạo để tiếp cận với giải pháp tối ưu.
Các khung AI Agent chủ lực
Khung AI Agent là cơ sở hạ tầng để tạo và quản lý các đại lý thông minh. Hiện nay, các khung phổ biến trong Web3 bao gồm Eliza của ai16z, ZerePy của zerebro và GAME của Virtuals.
Eliza là một khung AI Agent đa năng, được xây dựng bằng TypeScript, có thể chạy trên nhiều nền tảng (như Discord, Twitter, Telegram, v.v.) và thông qua quản lý bộ nhớ phức tạp, có thể ghi nhớ các cuộc hội thoại và ngữ cảnh trước đó, duy trì tính cách và kiến thức nhất quán. Eliza sử dụng hệ thống RAG (Retrieval Augmented Generation), có thể truy cập cơ sở dữ liệu hoặc tài nguyên bên ngoài để tạo ra câu trả lời chính xác hơn. Ngoài ra, Eliza tích hợp plugin TEE, cho phép triển khai trong TEE để đảm bảo an ninh và riêng tư dữ liệu.
GAME là khung trao quyền và thúc đẩy AI Agent ra quyết định và hành động tự chủ. Nhà phát triển có thể tùy chỉnh hành vi của đại lý theo nhu cầu của mình, mở rộng chức năng và cung cấp các thao tác tùy chỉnh (như đăng bài trên mạng xã hội, trả lời, v.v.). Các chức năng khác nhau của khung, như vị trí môi trường và nhiệm vụ của đại lý, được chia thành nhiều mô-đun để nhà phát triển dễ dàng cấu hình và quản lý. Khung GAME chia quá trình ra quyết định của AI Agent thành hai cấp độ: Lập kế hoạch cấp cao (HLP) và Lập kế hoạch cấp thấp (LLP), chịu trách nhiệm về các nhiệm vụ và quyết định ở các cấp độ khác nhau. Lập kế hoạch cấp cao chịu trách nhiệm thiết lập mục tiêu tổng thể và kế hoạch nhiệm vụ của đại lý, dựa trên mục tiêu, tính cách, thông tin bối cảnh và trạng thái môi trường để đưa ra quyết định, xác định độ ưu tiên của các nhiệm vụ. Lập kế hoạch cấp thấp tập trung vào khía cạnh thực thi, chuyển đổi quyết định của lập kế hoạch cấp cao thành các bước thao tác cụ thể, lựa chọn các chức năng và phương pháp vận hành phù hợp.
ZerePy là một khung mã nguồn mở bằng Python để triển khai AI Agent trên X. Khung này tích hợp các mô hình ngôn ngữ lớn (LLM) do OpenAI và Anthropic cung cấp, cho phép nhà phát triển xây dựng và quản lý các đại lý truyền thông xã hội, tự động thực hiện các hoạt động như đăng tweet, trả lời tweet, thích, v.v. Mỗi nhiệm vụ có thể được đặt trọng số khác nhau tùy theo mức độ quan trọng. ZerePy cung cấp giao diện dòng lệnh (CLI) đơn giản, giúp nhà phát triển nhanh chóng khởi chạy và quản lý các đại lý. Đồng thời, khung cũng cung cấp mẫu Replit (một nền tảng chỉnh sửa và thực thi mã trực tuyến), cho phép nhà phát triển bắt đầu sử dụng ZerePy nhanh chóng mà không cần cấu hình môi trường cục bộ phức tạp.
Tại sao AI Agent vẫn đối mặt với FUD?
AI Agent có vẻ thông minh và có thể giảm rào cản gia nhập và nâng cao trải nghiệm người dùng, vậy tại sao cộng đồng vẫn tồn tại FUD? Lý do là vì AI Agent về bản chất vẫn chỉ là một công cụ, hiện tại không thể hoàn thành toàn bộ quy trình công việc, chỉ có thể nâng cao hiệu quả và tiết kiệm thời gian ở một số điểm. Hơn nữa, ở giai đoạn phát triển hiện tại, vai trò của AI Agent chủ yếu tập trung vào việc giúp người dùng phát hành MeMe một cách dễ dàng và vận hành tài khoản truyền thông xã hội. Cộng đồng đùa rằng "tài sản thuộc về nhà phát triển, nợ nần thuộc về AI".
Tuy nhiên, chỉ trong tuần này, aiPool đã ra mắt AI Agent như một đợt chào bán token, sử dụng công nghệ TEE để thực hiện phi tập trung hóa. Ví tiền của AI Agent này được tạo động trong môi trường TEE, đảm bảo an ninh. Người dùng có thể gửi tiền (ví dụ: SOL) vào ví do AI Agent kiểm soát, sau đó AI Agent sẽ tạo token dựa trên các quy tắc đặt sẵn và khởi chạy pool thanh khoản trên DEX, đồng thời phân phối token cho các nhà đầu tư đủ điều kiện. Toàn bộ quá trình này được thực hiện hoàn toàn tự chủ bởi AI Agent trong môi trường TEE, tránh được rủi ro rug pull