Tác giả: Tổng biên tập
Một tác phẩm nghệ thuật không bao giờ hoàn thành, chỉ bị bỏ rơi.
Mọi người đều đang nói về AI Agent, nhưng những gì họ nói không phải là cùng một thứ, điều này dẫn đến AI Agent mà chúng ta quan tâm và góc nhìn của công chúng, cũng như góc nhìn của những người làm việc trong lĩnh vực AI, đều khác nhau.
Từ lâu, tôi đã từng viết DeFi là ảo tưởng của AI, từ đó đến nay, sự kết hợp giữa DeFi và AI vẫn là một mối tình một chiều, những người làm việc trong lĩnh vực AI hiếm khi đề cập đến các thuật ngữ Web3/blockchain, trong khi những người làm việc trong lĩnh vực DeFi lại say mê AI, và sau khi chứng kiến cảnh tượng các khung AI Agent có thể được tokenized, không biết liệu có thể thực sự thu hút những người làm việc trong lĩnh vực AI vào thế giới của chúng ta hay không.
AI là đại diện của DeFi, đây là nhận xét tốt nhất về cơn sốt AI từ góc nhìn của DeFi, sự cuồng nhiệt của DeFi đối với AI khác với các ngành khác, chúng tôi đặc biệt hy vọng có thể kết hợp việc phát hành và vận hành tài sản tài chính với nó.
Sự tiến hóa của Agent, bản chất dưới lớp tiếp thị công nghệ
Về nguồn gốc, AI Agent ít nhất có ba dòng nguồn, và AGI (Trí tuệ nhân tạo chung) của OpenAI được liệt kê là một bước quan trọng, khiến thuật ngữ này trở thành một thuật ngữ phổ biến vượt ra khỏi mức độ kỹ thuật, nhưng về bản chất, Agent không phải là một khái niệm mới, ngay cả khi được trang bị bởi AI, cũng khó có thể nói là một xu hướng công nghệ cách mạng.
Thứ nhất là AI Agent trong mắt OpenAI, tương tự như cấp độ lái xe tự động L3, AI Agent có thể được coi là có một số khả năng hỗ trợ lái xe cấp cao, nhưng vẫn không thể hoàn toàn thay thế con người.
Chú thích hình ảnh: Các giai đoạn AGI được lên kế hoạch bởi OpenAI, nguồn hình ảnh: https://www.bloomberg.com/
Thứ hai, như tên gọi, AI Agent là Agent được trang bị bởi AI, cơ chế và mô hình đại diện trong lĩnh vực máy tính không phải là điều mới lạ, và trong kế hoạch của OpenAI, Agent sẽ trở thành giai đoạn L3 sau hình thức đối thoại (ChatGPT) và hình thức suy luận (các loại Bot), đặc điểm của nó là "tự động thực hiện một số hành vi", hoặc như định nghĩa của Harrison Chase, người sáng lập LangChain: "AI Agent là một hệ thống sử dụng LLM để đưa ra quyết định về luồng điều khiển chương trình."
Đây chính là điểm tinh vi của nó, trước khi LLM xuất hiện, Agent chủ yếu thực hiện các quy trình tự động đã được lập trình trước, chỉ lấy một ví dụ, khi thiết kế chương trình thu thập dữ liệu, lập trình viên sẽ thiết lập User-Agent (đại diện người dùng) để mô phỏng chi tiết phiên bản trình duyệt, hệ điều hành mà người dùng thực sự sử dụng, tất nhiên, nếu sử dụng AI Agent để mô phỏng hành vi của con người một cách chi tiết hơn, thì sẽ xuất hiện khung AI Agent thu thập dữ liệu, cách làm này sẽ khiến cho việc thu thập dữ liệu "giống người hơn".
Trong quá trình chuyển đổi này, việc đưa AI Agent vào phải kết hợp với các kịch bản hiện có, gần như không có lĩnh vực hoàn toàn mới, ngay cả khả năng hoàn thiện và tạo ra mã nguồn như Curosr, Github copilot, cũng chỉ là tăng cường chức năng dựa trên LSP (Giao thức Máy chủ Ngôn ngữ, Language Server Protocol) và các ý tưởng tương tự, ví dụ như:
Apple: AppleScript (trình biên tập kịch bản) --Alfred--Siri-- Lối tắt (Shortcuts) --Apple Intelligence
Đầu cuối: Terminal (macOS)/Power shell(Windows)--iTerm 2--Warp(AI Native)
Tương tác người-máy: Web 1.0 CLI TCP/IP Netscape --Web 2.0 GUI/RestAPI/ Công cụ tìm kiếm /Google/Super App --Web 3.0 AI Agent + dapp ?
Để giải thích một chút, trong quá trình tương tác người-máy, sự kết hợp giữa GUI Web 1.0 và trình duyệt thực sự cho phép đại chúng sử dụng máy tính mà không cần bất kỳ rào cản nào, đại diện là sự kết hợp giữa Windows+IE, còn API là tiêu chuẩn trừu tượóa và truyền tải dữ liệu ở phía sau internet, trong kỷ nguyên Web 2.0, trình duyệt đã là thời đại của Chrome, và sự chuyển hướng sang di động đã thay đổi thói quen sử dụng internet của mọi người, các nền tảng siêu ứng dụng như WeChat, Meta đã bao phủ mọi mặt của cuộc sống con người.
Thứ ba, khái niệm "Ý định" (Intent) trong lĩnh vực DeFi là tiền đề gây sốt trong giới AI Agent, tuy nhiên cần lưu ý rằng, điều này chỉ có hiệu lực trong nội bộ DeFi, từ các Script của Bitcoin còn khiếm khuyết đến các Hợp đồng thông minh của Ethereum, chính là sự phổ biến của khái niệm Agent, sau đó là sự ra đời của các cầu nối xuyên chuỗi - trừu tượng chuỗi, EOA--AA ví cũng là sự mở rộng tự nhiên của cách tiếp cận này, vì vậy, khi AI Agent "xâm nhập" vào DeFi, việc hướng tới các kịch bản DeFi cũng không có gì đáng ngạc nhiên.
Đây chính là điểm gây nhầm lẫn của khái niệm AI Agent, trong bối cảnh DeFi, thực ra chúng ta muốn thực hiện là "tài chính tự động, tự động tham gia Meme", nhưng trong định nghĩa của OpenAI, thậm chí những kịch bản nguy hiểm như vậy cũng cần đạt đến cấp độ L4/L5 mới có thể thực sự hiện thực hóa, sau đó đại chúng đang chơi với các chức năng tự động tạo mã hoặc tóm tắt, viết bài bằng AI một cái nút, hai bên giao tiếp không ở cùng một chiều.
Sau khi hiểu rõ những gì chúng ta thực sự muốn, tiếp theo chúng ta sẽ tập trung vào logic tổ chức của AI Agent, các chi tiết kỹ thuật sẽ ẩn sau, cuối cùng, khái niệm đại diện của AI Agent chính là loại bỏ rào cản phổ cập công nghệ ở quy mô lớn, giống như trình duyệt đối với ngành công nghiệp PC cá nhân, vì vậy, chúng tôi sẽ tập trung vào hai điểm: nhìn AI Agent từ góc độ tương tác người-máy, và sự khác biệt và mối liên hệ giữa AI Agent và LLM, từ đó dẫn đến phần thứ ba: sự kết hợp giữa DeFi và AI Agent sẽ để lại điều gì.
let AI_Agent = LLM+API;
Trước khi có các chế độ trao đổi lời nói như ChatGPT, tương tác giữa con người và máy tính chủ yếu là hai hình thức GUI (giao diện đồ họa) và CLI (giao diện dòng lệnh, Command-Line interface), tư duy GUI tiếp tục phát triển thành nhiều hình thức cụ thể như trình duyệt, Ứng dụng, trong khi sự kết hợp giữa CLI và Shell gần như không thay đổi.
Nhưng đây chỉ là tương tác "mặt trước" giữa người và máy, khi internet phát triển, khối lượng và loại dữ liệu gia tăng dẫn đến sự tăng lên của tương tác "mặt sau" giữa dữ liệu và dữ liệu, giữa các Ứng dụng và Ứng dụng, hai bên hỗ trợ lẫn nhau, ngay cả hành vi duyệt web đơn giản cũng thực chất cần sự phối hợp và hỗ trợ của cả hai.
Nếu nói rằng sự tương tác giữa người dùng và trình duyệt, Ứng dụng là lối vào của người dùng, thì việc kết nối và chuyển hướng giữa các API lại là cái xương sống thực sự của internet, thực ra đây cũng là một phần của Agent, người dùng bình thường không cần biết đến các thuật ngữ như dòng lệnh và API, vẫn có thể thực hiện mục đích của mình.
LLM cũng tương tự, bây giờ người dùng có thể tiến xa hơn, thậm chí không cần tìm kiếm, toàn bộ quá trình có thể được mô tả như sau:
Người dùng mở cửa sổ trò chuyện;
Người dùng sử dụng ngôn ngữ tự nhiên, tức là văn bản hoặc giọng nói để mô tả nhu cầu của mình;
LLM sẽ phân tích nó thành các bước hoạt động có quy trình;
LLM sẽ trả kết quả về cho người dùng.
Có thể thấy, trong quá trình này, thách thức lớn nhất là đối với Google, vì người dùng không cần phải mở công cụ tìm kiếm, mà là các cửa sổ trò chuyện giống GPT, lối vào lưu lượng đang thay đổi một cách âm thầm, chính vì vậy, có người cho rằng vòng LLM này sẽ lật đổ công cụ tìm kiếm.
Vậy AI Agent đóng vai trò gì trong đây?
Tóm lại, AI Agent là sự chuyên biệt hóa của LLM.
LLM hiện tại không phải là AGI, tức không phải là tổ chức L5 như mơ ước của OpenAI, khả năng của nó bị giới hạn khá nhiều, ví dụ như nếu ăn quá nhiều thông tin đầu vào của người dùng, rất dễ g
Tất nhiên, đôi khi việc kết nối mạng cũng không thể hoàn toàn tránh được các vấn đề phát sinh, chẳng hạn như khi LLM tìm thấy câu trả lời ngu ngốc từ diễn đàn, thì có thể còn tệ hơn, nhưng việc tránh các tài liệu này sẽ dẫn đến giảm lượng dữ liệu có thể sử dụng, vì vậy hoàn toàn có thể chia nhỏ và tái tổ chức dữ liệu hiện có, thậm chí dựa trên dữ liệu cũ để tự sản xuất một số dữ liệu mới, từ đó giúp câu trả lời trở nên đáng tin cậy hơn, đây chính là sự hiểu biết ngôn ngữ tự nhiên của Retrieval-Augmented Generation (RAG).
Con người và máy móc cần hiểu lẫn nhau, nếu chúng ta để nhiều LLM hiểu và hợp tác với nhau, thì về bản chất đã chạm đến cách thức hoạt động của AI Agent, tức là đại diện của con người gọi các nguồn lực khác, thậm chí có thể bao gồm các mô hình lớn và các Agent khác.
Từ đó, chúng ta nắm được mối liên hệ giữa LLM và AI Agent: LLM là sự tổng hợp của một loạt kiến thức, con người có thể giao tiếp thông qua cửa sổ hội thoại, nhưng trong thực tế, chúng ta phát hiện ra một số luồng công việc cụ thể có thể được tóm tắt thành các chương trình nhỏ, Bot, tập hợp các chỉ dẫn, chúng ta gọi những thứ này là Agent.
AI Agent vẫn là một phần của LLM, hai thứ này không thể coi là tương đương, mà cách gọi AI Agent dựa trên nền tảng của LLM, đặc biệt nhấn mạnh sự phối hợp với các chương trình bên ngoài, LLM và các Agent khác, vì vậy mới có câu nói "AI Agent = LLM + API".
Vì vậy, trong quy trình làm việc của LLM, có thể thêm các hướng dẫn về AI Agent, lấy ví dụ về việc gọi dữ liệu API của X:
Người dùng mở cửa sổ trò chuyện;
Người dùng sử dụng ngôn ngữ tự nhiên, tức là văn bản hoặc giọng nói để mô tả nhu cầu của mình;
LLM sẽ phân tích thành nhiệm vụ của AI Agent gọi API, và chuyển quyền điều khiển đối thoại cho Agent đó;
AI Agent hỏi người dùng tài khoản X và mật khẩu API, sau đó dựa trên mô tả của người dùng để liên lạc với X qua mạng;
AI Agent sẽ trả kết quả cuối cùng cho người dùng.
Bạn còn nhớ lịch sử tiến hóa của tương tác người-máy chứ? Trong Web 1.0 và Web 2.0, các trình duyệt, API vẫn tồn tại, nhưng người dùng hoàn toàn có thể bỏ qua sự tồn tại của chúng, chỉ cần tương tác với AI Agent, và quá trình gọi API v.v. đều có thể sử dụng dạng đối thoại, những dịch vụ API này có thể là bất kỳ loại nào, bao gồm dữ liệu cục bộ, thông tin trực tuyến và dữ liệu từ các ứng dụng bên ngoài, chỉ cần phía đối tác cung cấp giao diện và người dùng có quyền sử dụng.
Một quy trình sử dụng AI Agent hoàn chỉnh như trên hình, LLM trong đó có thể được coi là một phần tách biệt với AI Agent, hoặc coi là hai giai đoạn của một quy trình, nhưng dù phân chia như thế nào, đều nhằm phục vụ nhu cầu của người dùng.
Xét từ quá trình tương tác người-máy, thậm chí người dùng đang nói chuyện với chính mình, bạn chỉ cần thoải mái bày tỏ những suy nghĩ và ý tưởng của mình, AI/LLM/AI Agent sẽ liên tục đoán định nhu cầu của bạn, việc bổ sung cơ chế phản hồi và yêu cầu LLM ghi nhớ ngữ cảnh (Context) hiện tại có thể đảm bảo AI Agent không đột ngột quên mất mình đang làm gì.
Tóm lại, AI Agent là sản phẩm mang tính cá nhân hóa cao hơn, đây là sự khác biệt cơ bản so với các công cụ lập trình, tự động hóa truyền thống, giống như một quản gia cá nhân luôn xem xét nhu cầu thực tế của người dùng, nhưng cần lưu ý rằng tính cá nhân này vẫn chỉ là kết quả của việc dự đoán xác suất, AI Agent cấp độ L3 không có khả năng hiểu và diễn đạt như con người, vì vậy việc kết nối nó với các API bên ngoài vẫn ẩn chứa nhiều rủi ro.
Sau khi AI trở thành một khuôn khổ có thể thương mại hóa
Lý do quan trọng khiến tôi vẫn quan tâm đến Crypto là vì AI framework đã có thể được thương mại hóa, trong ngăn xếp công nghệ AI truyền thống, framework không quá quan trọng, ít nhất là không quan trọng bằng dữ liệu và tính toán, và cách thức thu hồi vốn của sản phẩm AI cũng khó bắt đầu từ framework, bởi lẽ hầu hết các thuật toán AI và framework mô hình đều là sản phẩm mã nguồn mở, thông tin nhạy cảm thực sự là dữ liệu.
Về bản chất, framework AI hoặc mô hình là một loạt các thuật toán được đóng gói và kết hợp, giống như nồi gang nấu ngỗng lớn, nhưng giống ngỗng và mức độ nấu chín mới là yếu tố quyết định hương vị, sản phẩm được bán ra phải là ngỗng, nhưng bây giờ lại có khách hàng Web3 muốn mua cái nồi thay vì ngỗng.
Lý do không phức tạp, hầu hết sản phẩm AI của Web3 đều dựa trên những thứ đã có, cải tiến thành sản phẩm tùy chỉnh của riêng họ, thậm chí các nguyên lý kỹ thuật đằng sau các framework AI Crypto cũng không khác nhau nhiều, vì không thể phân biệt về mặt kỹ thuật, nên cần phải khác biệt về tên gọi, kịch bản ứng dụng, v.v., do đó những điều chỉnh nhỏ về framework AI cũng trở thành nền tảng cho các mã token khác nhau, dẫn đến bong bóng framework AI của Crypto Agent.
Một cách nào đó, đây cũng là phong cách thường thấy gần đây của Web3, tức là nền tảng phát hành token có giá trị hơn token, Pump.Fun/Hyperliquid cũng vậy, vốn dĩ Agent phải là ứng dụng và tài sản, nhưng khung Agent lại trở thành sản phẩm hot nhất.
Thực ra đây cũng là một cách tiếp cận giá trị neo, vì các Agent khác nhau không có sự phân biệt, thì khung Agent lại ổn định hơn, có thể tạo ra hiệu ứng hút giá trị phát hành tài sản, đây là phiên bản 1.0 khi Crypto và AI Agent kết hợp.
Còn phiên bản 2.0 đang nổi lên, điển hình là sự kết hợp giữa DeFi và AI Agent, khái niệm DeFAI được đề xuất tất nhiên là do kích thích thị trường, nhưng nếu xem xét các trường hợp sau đây sẽ thấy có điều khác biệt:
Morpho đang thách thức các sản phẩm cho vay cũ như Aave;
Hyperliquid đang thay thế các sản phẩm phái sinh trên chuỗi của dYdX, thậm chí là thách thức hiệu ứng niêm yết trên sàn CEX của Binance;
Stablecoin đang trở thành công cụ thanh toán cho các kịch bản ngoài chuỗi.
Chính trong bối cảnh DeFi đang chuyển đổi, AI đang cải thiện logic cơ bản của DeFi, nếu trước đây logic lớn nhất của DeFi là xác minh tính khả thi của hợp đồng thông minh, thì AI Agent lại khiến logic sản xuất DeFi thay đổi, bạn không cần hiểu DeFi vẫn có thể tạo ra sản phẩm DeFi, đây là sự赋能nền tảng hơn cả việc trừu tượng hóa chuỗi.
Thời đại mọi người đều là lập trình viên sắp đến, các phép tính phức tạp có thể外包cho LLM và API phía sau AI Agent, còn cá nhân chỉ cần tập trung vào ý tưởng của mình, ngôn ngữ tự nhiên có thể được chuyển đổi hiệu quả thành logic lập trình.
Kết luận
Bài viết này không đề cập đến bất kỳ mã token hay framework AI Agent Crypto nào, vì Cookie.Fun đã làm rất tốt, là nền tảng tổng hợp thông tin và phát hiện mã token AI Agent, sau đó mới là các mã token Agent đến rồi đi. Tiếp tục liệt kê thông tin trong bài đã không còn giá trị.
Nhưng trong thời gian quan sát này, thị trường vẫn thiếu sự thảo luận thực sự về việc Crypto AI Agent cuối cùng là gì, chúng ta không thể chỉ luôn tranh luận về các chỉ báo, mà phải nhìn vào bản chất của sự thay đổi trong bộ nhớ.
Chính khả năng không ngừng tạo ra các tài sản khác nhau là điều làm nên sức hấp dẫn của Crypto.