撰文:佐爷
A work of art is never completed, only abandoned.
大家都在说 AI Agent,但是大家所说的并不是同一个东西,这导致我们所关心的 AI Agent 和大众视角下,以及 AI 从业者的视角都有所不同。
许久之前,我曾写过 Crypto 是 AI 的幻觉,从那时到现在,Crypto 和 AI 的结合一直是一场单相思,AI 从业者甚少提及 Web3/ 区块链这些术语,而 Crypto 从业者却对 AI 的一往情深,而在见识到 AI Agent 框架都能被代币化的奇景后,不知道能否真正将 AI 从业者引入我们的世界。
AI 是 Crypto 的代理人,这是从加密视角本位去看待本轮 AI 狂飙的最佳注释,Crypto 对 AI 的狂热不同于其他行业,我们特别希望能将金融资产的发行和运作与之嵌合。
Agent 进化,技术营销下的本源
究其根源,AI Agent 至少有三种源流,而 OpenAI 的 AGI(通用人工智能)将其列为重要一步,让该词成为超越技术层面的流行语,但是本质上 Agent 并不是新鲜概念,即使加上 AI 赋能,也很难说是革命性的技术趋势。
其一便是 OpenAI 眼中的 AI Agent,类似自动驾驶分级中的 L3,AI Agent 可以视作具备一定的高阶辅助驾驶能力,但是还不能完全取代人。
图片说明:OpenAI 规划的 AGI 阶段,图片来源:https://www.bloomberg.com/
其二,顾名思义,AI Agent 是 AI 加持下的 Agent,代理机制、模式在计算机领域本不鲜见,而在 OpenAI 的谋划下,Agent 将成为继对话形式(ChatGPT)、推理形式(各类 Bot)后的 L3 阶段,其特点在于「自主进行某种行为」,或者用 LangChain 创始人 Harrison Chase 的定义:「AI Agent 是一个用 LLM 来做程序的控制流决策的系统。」
这就是其玄妙之处,在 LLM 出现之前,Agent 主要是执行人为设定好的自动化过程,仅举一例,程序员在设计爬虫程序时,会设置 User-Agent(用户代理),用以模仿真实用户使用的浏览器版本、操作系统等细节,当然,如果使用 AI Agent 来更加细致的模仿人类行为,那就会出现 AI Agent 爬虫框架,这样操作会让爬虫「更像人」。
在这样的变迁中,AI Agent 的加入必须和现有场景进行结合,完全独创的领域几乎不存在,即使是 Curosr、Github copilot 等代码补全和生成能力,也是在 LSP(语言服务器协议,Language Server Protocol)等思维下的进一步功能增强,这样的例子可以举出许多:
Apple:AppleScript(脚本编辑器)--Alfred--Siri-- 快捷指令(Shortcuts)--Apple Intelligence
终端:Terminal(macOS)/Power shell(Windows)--iTerm 2--Warp(AI Native)
人机交互:Web 1.0 CLI TCP/IP 网景浏览器 --Web 2.0 GUI/RestAPI/ 搜索引擎 /Google/Super App --Web 3.0 AI Agent + dapp ?
稍微解释一下,人机交互过程中,Web 1.0 GUI 和浏览器的结合真正让大众可以无门槛使用电脑,代表是 Windows+IE 的组合,而 API 是互联网背后的数据抽象和传输标准,Web 2.0 时代的浏览器已经是 Chrome 的时代,并且向移动端的转向改变了人们对互联网的使用习惯,微信、Meta 等超级平台的 App 覆盖了人们生活的方方面面。
其三,Crypto 领域的意图(Intent)概念是 AI Agent 圈内爆火的先导,不过要注意,这仅在 Crypto 内部有效,从功能残缺的比特币脚本到以太坊智能合约,本身就是 Agent 概念的泛用,而后催生的跨链桥 -- 链抽象、EOA--AA 钱包都是此类思路的自然延伸,所以在 AI Agent 「入侵」 Crypto 之后,导向 DeFi 场景也就不足为奇。
这就是 AI Agent 概念的混淆之处,在 Crypto 的语境下,我们实际上想实现的是「自动理财、自动打新 Meme」的 Agent,但是在 OpenAI 的定义下,这么危险的场景甚至需要 L4/L5 才能真正实现,然后大众在把玩的是代码自动生成或者 AI 一键总结、代写等功能,双方交流并不在一个维度。
理解了我们真正想要的是什么,接下来重点聊聊 AI Agent 的组织逻辑,技术细节会隐藏其后,毕竟 AI Agent 的代理概念就是将技术从大规模普及的障碍前移除,一如浏览器对个人 PC 产业的点石成金,所以我们的重心会在两点上:从人机交互看 AI Agent ,以及 AI Agent 和 LLM 的区别和联系,以此引出第三部分:Crypto 和 AI Agent 的结合最终会留下什么。
let AI_Agent = LLM+API;
在 ChatGPT 这类话聊式人机交互模式之前,人类和计算机的交互主要是 GUI(图形化界面) 和 CLI (命令行界面,Command-Line interface)两种形式,GUI 思维继续衍生出浏览器、App 等多种具体形式,CLI 和 Shell 的组合甚少变化。
但这只是「前端」表面的人机交互,随着互联网的发展,数据量和类型的增多导致数据和数据之间,App 和 App 之间的「后端」交互也在增多,两者互为依托,即使是简单的网页浏览行为,实际上也需要二者的协同与配合。
如果说人和浏览器、App 的互动说用户入口,那么 API 之间的链接和跳转则撑起了互联网的实际运行,其实这也是 Agent 的一部分,普通用户无需了解命令行和 API 等术语,即可实现自己的目的。
LLM 也是如此,现在用户可以更进一步,连搜索都不需要,整个过程可以被描述为以下几个步骤:
用户打开聊天窗口;
用户使用自然语言,即文字或语音描述自己的需要;
LLM 将其解析为流程化的操作步骤;
LLM 将其结果返回给用户。
可以发现,在这个过程中,受到最大挑战的是谷歌,因为用户并不需要打开搜索引擎,而是各类类 GPT 的对话窗口,流量入口正在悄然变化,也正是如此,才会有人认为本轮 LLM 革的是搜索引擎的命。
那么 AI Agent 又在其中起到何种作用呢?
一言以蔽之,AI Agent 是 LLM 的特化。
当前的 LLM 不是 AGI,即不是 OpenAI 理想中的 L5 组织者,其能力受到较大限制,比如吃多了用户输入信息很容易产生幻觉,其中一个重要原因在于训练机制,比如,如果你反复告诉 GPT 1+1=3,那么有一定概率在接下来的交互中询问 1+1+1=?时给出答案为 4 的可能性。
因为此时 GPT 的反馈完全来自于用户个人,如果该模型不联网,那么完全有可能被你的信息改变运作机制,以后就是一个只知道 1+1=3 的弱智 GPT,但是如果允许模型联网,那么 GPT 的反馈机制就更为多种多样,毕竟在网络上认为 1+1=2 的要占据绝大多数。
继续加大难度,如果我们一定要在本地使用 LLM,那么该如何避免此类问题?
一个简单粗暴的办法是同时使用两个 LLM,同时规定每次回答问题必须让两个 LLM 互相验证,以此降低出错的概率,再不行还有一些办法,比如每次让两个用户处理一个进程,一个负责问,一个负责微调问题,尽量让语言更规范、更理性一些。
GM(Good Morning) 때로는 온라인 연결만으로는 문제를 완전히 피할 수 없습니다. 예를 들어 LLM이 약한 답변을 검색하면 상황이 더 나빠질 수 있습니다. 하지만 이러한 자료를 피하면 사용 가능한 데이터 양이 줄어들게 됩니다. 따라서 기존 데이터를 분할하고 재구성하거나 이를 바탕으로 새로운 데이터를 생성하여 답변의 신뢰성을 높일 수 있습니다. 이것이 바로 RAG(Retrieval-Augmented Generation, 검색 증강 생성)의 자연어 이해 원리입니다. 인간과 기계는 서로 이해해야 합니다. 여러 LLM이 상호 이해하고 협력한다면 이는 AI 에이전트의 작동 방식에 접근하는 것입니다. 즉, 인간의 대리인이 다른 리소스, 심지어 대규모 모델과 다른 에이전트까지 호출할 수 있습니다. 따라서 LLM과 AI 에이전트의 관계를 파악할 수 있습니다. LLM은 지식의 집합체이며, 사람들은 대화창을 통해 이와 상호작용할 수 있습니다. 그러나 실제로는 특정 작업 흐름을 작은 프로그램, 봇, 명령 집합으로 정의할 수 있으며, 이를 에이전트라고 합니다. AI 에이전트는 LLM의 일부이지만 동일하지 않습니다. AI 에이전트의 호출 방식은 LLM을 기반으로 하지만, 외부 프로그램, LLM 및 다른 에이전트와의 협업에 특히 중점을 둡니다. 따라서 AI 에이전트 = LLM + API라고 할 수 있습니다. LLM의 워크플로에 AI 에이전트를 추가할 수 있습니다. 예를 들어 X의 API 데이터를 호출하는 경우: 1. 사용자가 채팅창을 엽니다. 2. 사용자가 자연어로 자신의 요구사항을 설명합니다. 3. LLM이 이를 API 호출 유형의 AI 에이전트 작업으로 해석하고 대화 권한을 해당 에이전트에게 전달합니다. 4. AI 에이전트가 사용자의 X 계정 및 API 비밀번호를 요청하고 사용자의 설명에 따라 X와 통신합니다. 5. AI 에이전트가 최종 결과를 사용자에게 반환합니다. 사용자는 브라우저, API 등의 존재를 무시하고 AI 에이전트와만 상호작용할 수 있습니다. API 호출 등의 과정은 대화 방식으로 처리될 수 있으며, 이러한 API 서비스는 로컬 데이터, 온라인 정보, 외부 앱 데이터 등 다양한 유형일 수 있습니다. AI 에이전트는 사용자의 실제 요구사항을 고려하는 보다 개인화된 산물입니다. 하지만 이는 여전히 확률적 추론의 결과이며, L3 수준의 AI 에이전트는 인간의 이해와 표현 능력이 부족하므로 외부 API와의 연결에는 위험이 존재합니다. AI 프레임워크의 화폐화 AI 프레임워크가 화폐화될 수 있다는 점이 Crypto에 대한 관심을 유지하는 중요한 이유입니다. 전통적인 AI 기술 스택에서 프레임워크는 중요하지 않으며, 데이터와 컴퓨팅 파워가 더 중요합니다. AI 제품의 수익화 방식도 프레임워크에서 시작하기 어려웠습니다. 대부분의 AI 알고리즘과 모델 프레임워크가 오픈소스이기 때문입니다. 본질적으로 AI 프레임워크 또는 모델은 일련의 알고리즘 컨테이너와 조합입니다. 마치 철솥에 오리를 삶는 것과 같습니다. 하지만 오리의 품종과 불의 세기가 맛의 차이를 결정하는 핵심입니다. 제품이 되어야 할 것은 오리이지만, Web3 고객들은 솥을 사고 오리는 버리려 합니다. 그 이유는 간단합니다. Web3의 AI 제품은 대부분 기존 AI 프레임워크, 알고리즘 및 제품을 개선한 것입니다. 심지어 다른 Crypto AI 프레임워크의 기술적 원리도 크게 다르지 않습니다. 기술적으로 구분할 수 없기 때문에 이름, 적용 분야 등의 차별화에 주력하게 되었고, 이로 인해 Crypto AI 에이전트 프레임워크 버블이 발생했습니다. 자체적으로 데이터와 알고리즘을 훈련할 필요가 없기 때문에 이름 차별화가 매우 중요해졌습니다. DeepSeek V3가 아무리 저렴해도 박사 학위와 GPU, 전력 소비가 필요합니다. 어떤 의미에서 이는 Web3의 일관된 스타일이라고 할 수 있습니다. 즉, 토큰 발행 플랫폼이 토큰보다 더 가치 있습니다. Pump.Fun/Hyperliquid 등이 그 예입니다. 에이전트는 애플리케이션과 자산이어야 하지만, 에이전트 발행 프레임워크가 가장 인기 있는 제품이 되었습니다. 이는 가치 앵커링 접근법의 일종입니다. 다양한 에이전트 간 차별성이 없기 때문에 에이전트 프레임워크가 더 안정적일 수 있습니다. 이를 통해 자산 발행의 가치 흡수 효과를 얻을 수 있습니다. 이것이 현재 Crypto와 AI 에이전트 결합의 1.0 버전입니다. 2.0 버전은 DeFi와 AI 에이전트의 결합입니다. DeFAI 개념 제안은 시장 열기에 의한 행동이지만, 다음과 같은 사항을 고려하면 차이가 있습니다: - Morpho가 Aave 등 기존 대출 제품에 도전하고 있습니다. - Hyperliquid가 dYdX의 체인 상 파생 상품을 대체하고 있으며, 심지어 Binance의 CEX 상장 효과를 도전하고 있습니다. - 스테이블 코인이 오프체인 시나리오의 지불 수단이 되고 있습니다. DeFi 변화의 큰 배경에서 AI가 DeFi의 기본 논리를 개선하고 있습니다. 이전에 DeFi의 최대 논리는 스마트 계약의 실행 가능성 검증이었지만, AI 에이전트는 DeFi 제조 논리를 변화시키고 있습니다. DeFi를 이해할 필요 없이도 DeFi 제품을 만들 수 있게 되었습니다. 이는 체인 추상화보다 한 단계 더 나아간 기반 지원입니다. 누구나 프로그래머가 되는 시대가 다가오고 있습니다. 복잡한 계산은 AI 에이전트 뒤의 LLM과 API에 외주할 수 있으며, 개인은 자신의 아이디어에만 집중하면 됩니다. 자연어가 효율적으로 프로그래밍 논리로 변환될 수 있습니다. 결론 본문에서는 Crypto AI 에이전트 토큰과 프레임워크에 대해 언급하지 않았습니다. Cookie.Fun이 이미 AI 에이전트 정보 집계 및 토큰 발견 플랫폼, 나아가 AI 에이전트 프레임워크, 마지막으로 단명하는 에이전트 토큰을 충분히 다루었기 때문입니다. 그러나 이 기간 동안의 관찰에 따르면, 시장에는 Crypto AI 에이전트가 무엇인지에 대한 진정한 탐구가 여전히 부족합니다. 우리는 항상 포인터에 대해 논의하지만, 본질은 메모리 변화입니다. 이처럼 끊임없이 다양한 자산을 토큰화할 수 있는 능력이 Crypto의 매력이라고 할 수 있습니다.