聊透 Agent,它是「同事」還是「工具」,創業機會和價值究竟是什麼?

AI 產品正在從「工具」走向「關係」,人需要決定建立怎樣的關係。

整理:Moonshot

來源:極客公園

2025 年,是 Agent 按下加速鍵的一年。

從年初 DeepSeek 引發的驚歎,到 GPT-4o 和 Claude 3.5 接連登場,大模型的邊界一次次被重寫。但真正讓 AI 產業鏈神經繃緊的,不是模型的性能迭代,而是 Agent 的橫空出世。

Manus、Devin 等產品的爆火,都在重申一個共識:大模型將不再只是工具,而是要成為可以自我調度的智能體。

Agent 由此成為繼大模型之後,全球科技圈最快形成共識的第二個風口。

從巨頭的戰略重構到創業賽道的快速跟進,Agent 正成為下一個全民下注的方向。但在 C 端產品密集湧現、開發者為其狂熱的同時,真正跑通用戶價值閉環的項目卻鳳毛麟角,越來越多的產品陷入了「用老需求套新技術」的焦慮。

熱浪過後,市場也迴歸冷靜:Agent 究竟是一場範式的重構,還是一次新的包裝?所謂「通用」與「垂直」的路徑分野,是否真的帶來可持續的市場空間?而「新入口」背後,是交互方式的進化,還是舊世界的投影?

順著這些疑問繼續下探,我們會發現,Agent 的真正門檻,或許並不在模型能力,而在其賴以生存的底層設施。從可控運行環境,到記憶系統、上下文感知、工具調用,每一個基礎模塊的缺位,都是 Agent 從演示走向實用的最大阻力。

這些底層工程問題,構成了 Agent 從「潮流玩具」走向「生產力工具」的最大阻礙,也恰恰是當下最確定、最高價值的創業藍海。

在這樣一個供給溢出、需求未明的階段,我們想借由這場對談,回答一個越來越緊迫的問題:Agent 的真問題與真機會,究竟藏在哪些地方?

在本次深度對談裡,我們邀請到了身處一線的拾象科技創始人李廣密與 拾象科技 AI Research Lead 鍾凱祺,兩位從業者將從產品形態、技術路徑、商業模式、用戶體驗乃至 Infra 構建等多個維度,為我們拆解當下 Agent 的真問題與真機會。

我們將跟隨他們的思考,探尋在巨頭環伺的牌桌上,創業公司的真實機會藏於何處;一條從「Copilot」平滑過渡到「Agent」的務實成長路徑是如何被一步步驗證的 ;以及為何 Coding(編碼)這一看似垂直的領域,卻被視作通往 AGI 的「價值高地」與「關鍵指標」。

最終,這場對話將推向更遠的未來,一窺人與 Agent 之間全新的協作關係,以及構建下一代智能基礎設施所面臨的核心挑戰與無限機遇。

要點精選

  • 通用 Agent 領域做得最好的是「模型即 Agent」(Model as Agent)。

  • 做 Agent 這件事,並不一定要「以終為始」,一開始就瞄著完全自動化的 Agent 去做,它可以先從 Copilot 做起。在這個過程中收集用戶數據、做好用戶體驗、佔領用戶心智,然後慢慢地轉型。

  • AGI 有可能最先在 Coding(編碼)環境下實現,因為這個環境最簡單,它能鍛鍊 AI 的核心能力。Coding 是這個世界裡的「萬用之機」,有了它,AI 就可以去構建和創造。Coding 有可能拿走整個大模型產業階段性 90% 的價值。

  • AI Native 的產品不只是給人用的,它必須同時服務於 AI。一個真正的 AI Native 產品,應該是內建了服務 AI 和人類的雙向機制。

  • 今天的 AI 產品正在從「工具」走向「關係」。人不會和工具建立關係,但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關係。

以下為當天《今夜科技談》直播沉澱,由極客公園整理。

01 熱潮之下,哪些 Agent 產品已嶄露頭角?

張鵬:在過去一段時間,所有人都在討論 Agent,認為這可能是現階段的一個重要議題,也是創業公司的難得發展機會。

我看到拾象科技對 Agent 體系做了比較深入的研究,也體驗和分析了很多相關產品。我想先聽聽兩位,最近哪些 Agent 相關的產品給你們留下了比較深刻的印象?為什麼?

李廣密:我自己印象最深的是兩個:一個是 Anthropic 的 Claude 在編程能力上的表現,另一個是 OpenAI ChatGPT 的 Deep Research 功能。

關於 Claude,主要是它的編程能力。我有一個觀點:編程(Coding)是衡量 AGI 最關鍵的先驗指標。如果 AI 不能規模化、端到端地進行軟件應用開發,那麼在其他領域的進展也會比較慢。我們必須先在 Coding 這個環境下實現很強的 ASI(Artificial Superintelligence),其他領域才可能加速。或者說,我們先在數字環境下實現 AGI,再拓展到其他領域。

全球首位 AI 程序員 Devin|圖源:Cognition Labs

關於 Deep Research,它對我自己的幫助非常大,我幾乎每天都在用。它其實就是一個搜索 Agent,幫我檢索了大量的網頁和資料,體驗很好,極大地拓展了我的研究空間。

張鵬:凱祺,從你的視角看,哪些產品給你留下了深刻印象?

鍾凱祺 (Cage):我可以介紹一下我平時觀察和使用 Agents 的思維模型,然後在每個分類下介紹一兩個代表性產品。

首先,大家經常會問:通用 Agent 還是垂直 Agent?我們認為通用 Agent 領域做得最好的是「模型即 Agent」(Model as Agent)。比如廣密剛才提到的 OpenAI 的 Deep Research,以及 OpenAI 新發布的 o3 模型,它其實就是一個標準的「模型即 Agent」的範例。它把 Agent 的所有組件——大語言模型(LLM)、上下文(Context)、工具使用(Tool Use)和環境(Environment)——全都縫合到了一起,並進行了端到端的強化學習訓練。訓練之後的結果就是,各類 Agent 執行信息檢索的任務它都能完成。

所以我的一個「暴論」是:通用 Agent 的需求基本上就是信息檢索和輕度代碼編寫這兩類,而 GPT-4o 已經完成得非常好了。因此,通用 Agent 市場基本上是大模型公司的主戰場,創業公司很難僅僅服務於通用需求來做大。

讓我印象比較深刻的創業公司基本都聚焦在垂直(Vertical)領域。

如果我們先說 ToB 的垂直領域,可以類比人的工作分為前臺工作和後臺工作。

後臺工作的特點是重複性強、對高併發要求高,通常有一條很長的 SOP(Standard Operating Procedure),其中很多任務非常適合 AI Agent 去一對一地執行,並且適合在比較大的探索空間裡進行強化學習。這裡比較有代表性的,我想分享的是一些面向 AI for Science 的創業公司,他們做的是 Multi-agent system(多智能體系統)。

在這個系統裡,各種科研任務都包含在內,比如文獻檢索、實驗規劃、預測前沿進展以及數據分析等。它的特點是,不再是像 Deep Research 那樣的單個 Agent,而是一個非常複雜的、能針對科研系統做到更高分辨率的系統。它有一個很有意思的功能叫「Contradiction Finding」,可以處理對抗性的任務,例如發現兩篇頂級期刊論文之間的矛盾之處。這代表了研究型 Agent 裡一種非常有意思的範式。

前臺工作很多時候是和人打交道,需要做外聯,目前比較適合的是語音 Agent,例如醫療領域的護士電話回訪、招聘、物流溝通等。

這裡我想分享一家叫 HappyRobot 的公司,他們找到了一個聽起來很小的場景,專門在物流和供應鏈領域做電話溝通。比如,一個卡車司機遇到問題,或者貨到了之後,Agent 能快速給他打電話。這裡發揮了 AI Agent 一個很特別的能力:7 天 24 小時無間斷地響應並快速做出反應。這對於物流的大部分需求來說已經足夠了。

除了以上兩大類,還有一些比較特別的,比如 Coding Agent。

02 從 Copilot 到 Agent,是否存在一條更務實的成長路徑?

鍾凱祺:在代碼開發這個領域,最近創業熱情很火熱,一個很好的例子是 Cursor。Cursor 1.0 的發佈,基本上把一個原來看起來是 Copilot(輔助駕駛)的產品,變成了一個完全的 Agent 產品。它能後臺異步操作,有記憶功能,這正是我們對 Agent 的想象。

它和 Devin 的對比很有意思,給我們的啟發是:做 Agent 這件事,並不一定要「以終為始」,一開始就瞄著完全自動化的 Agent 去做,它可以先從 Copilot 做起。在這個過程中收集用戶數據、做好用戶體驗、佔領用戶心智,然後慢慢地轉型。國內做得不錯的,像 Minus AI,他們最早的產品也是從 Copilot 形態做起的。

最後,我還會用「環境」這個思維模型來區分不同 Agent。比如,Manus 的環境是虛擬機(Virtual Machine),Devin 的環境是瀏覽器,flowith 的環境是筆記本,SheetZero 的環境是表格,Lovart 的環境是畫布等等。這個「環境」就對應了強化學習裡的環境定義,這也是一種值得參考的分類方式。

國內初創團隊打造的 flowith |圖源:flowith

張鵬:我們深入聊聊 Cursor 這個例子,它背後的技術棧和成長路徑是怎樣的?

鍾凱祺 (Cage):自動駕駛的例子就很有意思,直到今天,特斯拉也不敢真的把方向盤、剎車和油門去掉。這說明在很多關鍵決策上,AI 還沒辦法完全超越人類。只要 AI 的能力和人類差不多,一些關鍵決策就一定需要人類介入。這正是 Cursor 一開始就想得比較明白的地方。

所以他們最早貼合的特性,就是一個人類最需要的功能:自動補全(Autocompletion),它把這個功能做成了 Tab 鍵觸發,隨著 Claude 3.5 這樣的模型出來,Cursor 把 Tab 的準確率提高到 90% 以上。在這種準確率下,我可以在一個任務流中連續使用 5 到 10 次,心流體驗就出現了。這是 Cursor 作為 Copilot 的第一個階段。

第二個階段,他們做的功能是代碼重構(Code Refactoring)。Devin 和 Cursor 都想做這個需求,但 Cursor 做得更巧妙。它會跳出一個對話框,當我輸入需求時,它可以在文件外開啟一個平行的修改模式來重構代碼。

這個功能剛出來時準確率也不高,但因為用戶對它的預期是 Copilot,所以大家都能接受。而且他們很準確地預判到,模型的 coding 能力一定會快速提升。所以他們一邊打磨產品功能,一邊等待模型能力提升,Agent 能力就很順利地浮現了。

第三步就是我們今天看到的 Cursor 狀態了,一個相對端到端的、在後臺(background)運行的 Agent。它背後有一個像沙盒一樣的環境,我甚至可以在上班時把不想做的任務佈置給它,它可以在後臺用我的計算資源去完成,與此同時,我能專注於自己最想做的核心任務。

最後,它以異步交互的形式,像發郵件或飛書消息一樣,把結果告訴我。這個過程很順利地實現了從 Copilot 到 Autopilot(或者說 Agent)的轉型。

關鍵還是要抓住人的交互心智,從一開始讓用戶更樂於接受同步交互,這樣就能收集到大量的用戶數據和反饋。

03 為何 Coding 是通往 AGI 的「關鍵試煉場」?

張鵬:廣密剛才說「Coding 是通向 AGI 的關鍵,如果不能在這個領域實現 ASI(超級智能),其他領域也很難。」為什麼?

李廣密:有幾個邏輯。第一,Code 這個數據是最乾淨、最容易閉環,並且結果是可以驗證的。我有一個猜想,Chatbot 可能沒有數據飛輪(一種反饋循環機制,通過從交互或流程中收集數據,持續優化 AI 模型,進而產生更優的結果和更有價值的數據)。但 Code 領域有機會跑出數據飛輪,因為它可以進行多輪的強化學習,而 Code 是跑多輪強化學習的關鍵環境。

我一方面把 Code 理解成編程工具,但更願意把它理解成一個實現 AGI 的環境。AGI 有可能最先在這個環境下實現,因為這個環境最簡單,它能鍛鍊 AI 的核心能力。如果 AI 連一個端到端的應用軟件開發都做不了,那在其他領域就更難了。如果它在未來一段時間無法大規模替代基礎的軟件開發工作,那在其他領域也很難。

而且,coding 能力上來了,模型的指令遵循能力也會上來。比如處理很長的 prompt,Claude 就明顯要強一些,我們猜測這跟它的 coding 能力有邏輯關係。

另外一個點,我想未來的 AGI 會先在數字世界實現。未來兩年,Agent 能做人在手機和電腦上操作的幾乎所有事情。一方面通過簡單的 coding 完成,如果不行,它還可以調用其他虛擬工具。所以,先在數字世界裡實現 AGI,讓它跑得比較快,這是一個大的邏輯。

04 如何判定一個好 Agent?

張鵬:Coding 是這個世界裡的「萬用之機」,有了它,AI 就可以去構建和創造。而且編程這個領域相對結構化,適合 AI 發揮。當評價一個 Agent 的好壞時,除了用戶體驗,你們會從什麼視角去評價一個 Agent 的潛力?

鍾凱祺 (Cage):一個好的 Agent 首先得有一個環境來幫助構建數據飛輪,而且這個數據本身要是可驗證的。

最近 Anthropic 的研究員提得比較多一個詞叫 RLVR(Reinforcement Learning from Verifiable Reward),其中的「V」就是指可驗證的回報。代碼和數學就是非常標準的可驗證領域,任務做完後,立馬能驗證對錯,數據飛輪就自然地建立起來了。

數據飛輪的工作機制|圖源:英偉達

所以,構建一個 Agent 產品,就是要構建這樣一個環境。在這個環境裡,用戶執行任務的成功或失敗都不重要,因為現在的 Agent 一定會失敗。關鍵是在失敗時,它能收集到有信號的數據,而不是噪音數據,來指導產品本身的優化。這些數據甚至可以作為強化學習環境的冷啟動數據。

第二,產品是否做得足夠「Agent Native」。就是說,在設計產品時,要同時思考人和 Agent 的需求。一個典型的例子是 The Browser Company,它為什麼要做一款新的瀏覽器?因為之前的 Arc 純粹是為了提升人類用戶的效率而設計的。而他們新的瀏覽器在設計時,很多新功能未來是能給 AI Agent 自己使用的。當產品的底層設計邏輯發生改變,這就非常重要了。

從結果上來說,客觀評估也很關鍵。

1.任務完成率 + 成功率:首先任務得能跑完,這樣用戶至少能收到一個反饋。其次是成功率。一個 10 步的任務,如果每一步準確率都是 90%,那最終成功率只有 35%。所以必須優化好每一步之間的銜接。目前行業裡一個及格線可能是五成以上的成功率。

2.成本和效率:包括計算成本(token cost)和用戶的時間成本。如果 GPT-4o 跑一個任務 3 分鐘,而另一個 Agent 要跑 30 分鐘,這對用戶是很大的消耗。而且這 30 分鐘裡,算力消耗是巨大的,這會影響規模效應。

3.用戶指標:最典型的是用戶粘性。用戶在嚐鮮後是否願意反覆使用?比如日活 / 月活(DAU/MAU)比例、次月留存率、付費率等,這些是避免公司只有「虛假繁榮」(five minutes of fame)的根本指標。

李廣密:我再補充一個視角:Agent 與當前模型能力的匹配程度。今天 Agent 80% 的能力依賴於模型這個引擎。比如,GPT 到了 3.5,多輪對話的通用範式出現了,Chatbot 這種產品形態就行得通了。Cursor 的崛起也是因為模型發展到了 Claude 3.5 的水平,它的代碼補全能力才得以成立。

像 Devin 其實出來就得偏早了,所以創始團隊對模型能力的邊界理解非常重要,要清楚今天以及未來六個月模型能到哪一步,這與 Agent 能實現的目標息息相關。

張鵬:什麼叫「AI Native」的產品?我覺得 AI Native 的產品不只是給人用的,它必須同時服務於 AI。

換句話說,如果一個產品裡沒有合理的數據去調試,沒有為未來 AI 的工作環境做搭建,那它只是把 AI 當成一種降本增效的工具,這樣的產品生命力是有限的,很容易被技術浪潮淹沒。一個真正的 AI Native 產品,應該是內建了服務 AI 和人類的雙向機制。簡單來說,AI 在服務用戶的時候,用戶有沒有也在服務 AI?

鍾凱祺 (Cage):我非常喜歡這個概念。Agent 的數據在現實世界裡是不存在的,沒有人會在完成任務時把思考過程一步步拆解清楚。那怎麼辦?一個方法是找專業的標註公司,另一個方法就是要撬動(leverage)用戶,把用戶的真實使用方式和 Agent 自身的運行過程捕捉下來。

張鵬:那如果要通過 Agent 的方式讓人類給 AI「投餵」數據,什麼樣的任務是最有價值的?

鍾凱祺 (Cage):與其想著用數據服務 AI,不如想 AI 有什麼長板應該被放大。比如科學研究,在 AlphaGo 之前,人類覺得圍棋和數學是最難的。但用了強化學習之後發現,這些對 AI 反而是最簡單的。在科學領域也一樣,人類歷史上已經很久沒有一個學者能通曉每個學科的犄角旮旯了,但 AI 可以。所以我認為,科學研究這類任務對人類來說很難,但對 AI 不一定難。正因如此,我們才要多找一些數據和服務來支持它。這類任務的回報比大部分任務更 verifiable,未來甚至可能是人類幫 AI「搖試管」,然後告訴 AI 結果是對是錯,幫助 AI 一起去點亮科技樹。

李廣密:一開始的數據冷啟動是必要的。做一個 Agent 就像做一個創業公司,創始人肯定要做冷啟動,要親力親為。接下來,搭建環境就很重要,決定了 Agent 往哪個方向走。再往後,更重要的是搭建獎勵(Reward)系統。我覺得環境和獎勵這兩個因素非常關鍵。在這個基礎上,Agent 的創業者做好這個 Agent 的「CEO」就好了。今天 AI 已經能寫出人類看不懂但能運行的代碼,我們不一定非要理解強化學習端到端的邏輯,只要搭好環境、設好獎勵就行。

05 Agent 的商業模式將走向何方?

張鵬:最近我們看到很多 ToB 領域的 Agent,尤其是在美國,它們的商業模式和增長模式有什麼變化嗎?還是有新的模式出現?

鍾凱祺 (Cage):現在最大的一個特點就是,有越來越多的產品從偏 C 端切入,在公司組織裡自下而上(bottom-up)地被使用。最典型的就是 Cursor。除了它,還有很多 AI Agent 或 Copilot 產品,大家願意自己先用起來。這就不再是傳統 SaaS 那種需要先搞定 CIO、一對一簽單的模式了,至少第一步不是這樣。

另一個有意思的產品是 OpenEvidence,他們做的是醫生這個群體。他們先把醫生群體打下來,然後漸漸植入醫療器械和藥品的廣告。這些業務不需要一開始就和醫院談,因為和醫院談非常慢。AI 創業最關鍵的就是速度,光靠技術護城河是沒用的,需要通過這種自下而上的方式增長。

AI 醫療獨角獸 OpenEvidence|圖源:OpenEvidence

關於商業模式,現在有一個趨勢,就是慢慢地從基於成本(Cost-based)定價走向基於價值(Value-based)定價。

1.基於成本:這像傳統雲服務,在 CPU/GPU 成本之上加一層軟件價值。

2.按次收費:在 Agent 這邊,一種是按「動作」(Action)收費。比如我前面提到的物流 Agent,給卡車司機打一個電話收幾毛錢。

3.按工作流收費:更高一層的抽象是按「工作流」(Workflow)收費,比如完成一整個物流訂單。這離成本端更遠,離價值端更近了,因為它真的參與到了工作中。但這需要一個相對收斂的場景。

4.按結果付費:再往上,就是按「結果」(Result)付費。因為 Agent 成功率不高,用戶希望為成功的結果付費。這要求 Agent 公司對產品有極高的打磨能力。

5.按 Agent 本身付費:未來可能會真正地按「Agent」付費。比如,有一家叫 Hippocratic AI 的公司做 AI 護士,在美國招一個人類護士大概是每小時 40 美金,而他們的 AI 護士每小時只要 9 到 10 美金,降了四分之三的成本。在美國這種人力昂貴的市場,這非常合理。如果 Agent 未來能做得更好,我甚至可以給它發獎金、發年終獎。這些都是商業模式上的創新。

李廣密:我們最期待的是按價值(Value-based)的計價方式。比如 Manus AI 做一個網站,這個價值是不是值 300 美金?它做一個應用,是不是值 5 萬美金?但今天的任務價值還不好定價。如何建立一個好的衡量計價方式,是值得創業者去探索的。

另外,剛才凱祺提到按 Agent 付費,這就像企業要和員工籤合同一樣。未來我們僱傭了 Agent,是不是要給它發「身份證」?是不是要籤「勞動合同」?這其實就是智能合約。我比較期待未來 Crypto 領域的智能合約如何應用到數字世界的 Agent 上,當任務完成後,通過一個好的衡量計價手段,去分配經濟利益。這可能是 Agent 與 Crypto 智能合約結合的機會。

06 人類與 Agent 的協作關係會變成什麼形態?

張鵬:最近在 Coding Agent 這個方向,有兩個詞討論得比較多:「Human in the loop」和「Human on the loop」,這是在探討什麼?

鍾凱祺 (Cage):「Human on the loop」是指人儘可能減少在循環中的決策,只在關鍵時刻參與一下。有點像特斯拉的 FSD,當系統遇到危險決策時,會警告人類接管油門剎車。在虛擬世界中,這通常指非即時的、異步的人機協作。人可以對 AI 拿不準的關鍵決策進行干預。

「Human in the loop」則更偏向於 AI 會時不時地「ping」你一下,來確認某件事。比如 Minus AI,它的右半邊有一個虛擬機,我可以實時看到它在瀏覽器裡做什麼,這就像一個打開的白盒,我能大概知道 Agent 想做什麼。

這兩個概念不是非黑即白的關係,而是一個光譜。現在更多的是「in the loop」,人還是要在很多關鍵點上做審批。原因很簡單,軟件還沒到那個階段,出了問題總得有人負責。油門和剎車一定是去不掉的。

可以預見的是,未來高重複性的任務,最終結果一定是人只看摘要,自動化程度會非常高。對於一些難題,比如讓 AI 看病理報告,我們可以把 Agent 的「假陽率」調高一點,讓它更容易覺得「有問題」,然後「on the loop」地把這些案例作為郵件發給人類醫生。這樣,雖然人類醫生需要複核的案例多了,但 Agent 所有判斷為「陰性」的案例都可以被順利審批掉。如果病理報告中只有 20% 真的有難度,那人類醫生的工作帶寬就已經放大了 5 倍。所以不用太糾結於「in」還是「on」,只要找到好的結合點,就能把人機協作做得很好。

李廣密:鵬哥問的這個問題背後,其實有一個巨大的機會,就是「新的交互」以及「人與 Agent 如何協同」。這可以簡單理解成在線(同步)和離線(異步)。比如我們開會直播,必須實時在線。但如果我作為一個 CEO 給同事佈置任務,項目推進是異步的。

這裡面更大的意義在於,當 Agent 大規模落地後,人與 Agent 如何協同交互,以及 Agent 與 Agent 之間如何協同交互,這是非常值得探索的。今天我們還是通過文本與 AI 交互,但未來與 Agent 的交互方式會有很多種。有些可能在後臺自動化運行,有些則需要人在前面看著。探索新的交互是一個巨大的機會。

07 能力過剩、需求不足,Agent 的「殺手級應用」何時出現?

張鵬:Coding Agent 總體還是圍繞 IDE 的延長線在做。未來會不會有變化?如果大家都擠在這條路上,後來者要如何追趕 Cursor?

鍾凱祺 (Cage):IDE 只是一個環境,再去復刻一個 IDE 本身的價值不大。但在 IDE 或另一個好的環境裡做 Agent,本身是有價值的。我會思考它的用戶到底只是專業開發者,還是能拓展到專業開發者之外「平民開發者」——那些有很多自動化需求的白領工作者。

現在缺的是什麼?不是供給能力,因為 Cursor 這類產品已經把 AI 的 coding 供給能力放大了 10 倍甚至 100 倍。以前我要做一個產品,需要外包一個 IT 團隊,試錯成本很高。現在理論上我只要說一句話,花 20 美元的月費就能試錯。

現在缺的是需求。大家都在用老的需求去套新技術,有點「拿著錘子找釘子」的狀態。目前的需求大多是做落地頁(Landing page)或者基礎的玩具網站。未來需要找到一個收斂的產品形態。這有點像當年推薦引擎出來的時候,它是一個很好的技術,後來出現了一種叫「信息流」的產品形態,把推薦引擎真正帶給了大眾。但 AI Coding 領域還沒有找到像「信息流」這樣的殺手級產品。

李廣密:我覺得 Coding 有可能拿走整個大模型產業階段性 90% 的價值。這個價值怎麼長出來?今天的第一幕還是服務全球 3000 萬程序員。我舉個例子,Photoshop 服務的是全球兩三千萬專業設計師,門檻很高。但是當剪映、Canva、美圖秀秀出來後,可能有 5 億甚至更多的用戶都可以使用這些工具,並做出更火爆的內容。

Code 有一個好處,它是一個創意的表達平臺。這個社會上 90% 以上的任務都可以通過 Code 來表達,所以它有可能變成一個創意平臺。以前應用開發門檻非常高,大量的長尾需求沒有被滿足。當門檻大幅降低後,這些需求就會被激發出來。我期待的是「應用的大爆發」。移動互聯網生成的最大數據是內容,而 AI 這一波生成的最大內容可能就是新的應用軟件。這就像優酷、愛奇藝這種長視頻平臺和抖音的區別。你可以把大模型比作攝像頭,在它之上還能做出抖音和剪映這樣的殺手級應用。這可能就是所謂的「Vibe Coding」(氛圍編程)的本質,它是一個新的創意平臺。

張鵬:要提升 Agent 的輸出價值,輸入(input)也變得非常重要。但在產品和技術上,有什麼方法可以提升輸入質量,從而確保更好的輸出呢?

鍾凱祺 (Cage):在產品上,我們不能覺得用戶用不好產品是用戶的問題。要下功夫最關鍵的一個詞就是「上下文」(Context)。一個 Agent 能否建立「上下文感知」(Context Awareness)?

舉個例子,如果我在互聯網大廠裡寫代碼,Agent 不光要看我手頭的代碼,還要看整個公司相關的代碼庫(Codebase),甚至要看我在飛書裡和產品經理、同事的對話,以及我之前的編碼和溝通習慣。把這些上下文都給 Agent,我的輸入才能更高效。

所以對於 Agent 開發者來說,最關鍵的就是要把記憶(Memory)機制和上下文的連接能力做得足夠好,這也是 Agent 基礎設施(Infra)的一大挑戰。

Agent 的挑戰:好記憶機制和上下文連接|圖源:零售科學

此外,對於開發者來說,怎麼做好強化學習的冷啟動數據、怎麼定義清晰的獎勵(Reward)也很重要。這個獎勵背後意味著,當用戶表達不清晰時,你怎麼把他的需求拆解出來。比如,OpenAI 的 Deep Research 在我問得不清晰時,會先給出四個引導性問題。在和它交互的過程中,我其實也在想清楚自己的需求。

對於今天的用戶來說,最主要還是要想怎麼清晰地表達需求,以及怎麼驗收需求。雖然不用做到「以終為始」,但要對好壞有一個大概的預期。我們寫 Prompt 也要像寫代碼一樣,有清晰的指令和邏輯,這樣能避免很多無效的輸出。

李廣密:我補充兩點。第一,上下文的重要性。我們內部經常討論,上下文做好了,會有新的支付寶、PayPal 級別的機會。

以前電商看的是成交總額(GMV),以後看的是任務完成率。而任務完成,一邊是智能,另一邊就是上下文。比如我要做一個個人網站,如果把我的 Notion 筆記、微信數據、郵件數據都提供給 AI,那我的個人網站內容肯定會非常豐富。

第二,自主學習。搭好環境後,Agent 要能迭代,這非常關鍵。如果不能持續學習迭代,結果就是被模型本身吃掉,因為模型就是一個學習系統。上一波移動互聯網,沒有做機器學習和推薦的公司都沒做大。這一波如果 Agent 做不好端到端的自主學習和迭代,我覺得也做不起來。

08 巨頭博弈下,還有哪些變化和機會?

張鵬:我們怎麼判斷未來 Agent 的能力會以一個超級接口的形式出現,還是離散地分佈在各個場景裡?

鍾凱祺 (Cage):我看到一個比較大的趨勢是,第一,肯定是多智能體(Multi-agent)的。即便是完成一個任務,在 Cursor 這類產品裡,做代碼補全和做單元測試的可能是不同的 Agent,因為它們需要的「性格」和擅長的點不一樣。

第二,入口會不會有變化?我覺得入口是一個二階的問題。首先要發生的是,大家有很多 Agent,並和它們協作。這些 Agent 背後會支撐起一張網絡,我稱之為「Botnet」。比如未來購物,60% 以上的固定消費可能都由 Agent 幫我完成。

在生產力場景也一樣,未來程序員的每日例會可能會被 Agent 之間的協作所取代,由它們推送指標異常和產品開發進展。當這些發生後,入口的變化才可能出現。那個時候,API 的調用也不再主要是人類調用,而是 Agent 之間互相調用。

張鵬:那些有能力的大廠,比如 OpenAI, Anthropic, Google, Microsoft,在 Agent 上都是什麼樣的決策和行動狀態?

李廣密:我腦子裡一個關鍵詞是「分化」。去年大家都在追趕 GPT-4,但現在能做的事更多了,各家都開始分化。

第一個發生分化的就是 Anthropic。因為它比 OpenAI 晚,綜合能力沒那麼強,所以它就專注在 Coding 上。我感覺它摸到了通往 AGI 大方向的第一張大牌,就是 Coding Agent。他們可能認為,通過 Coding 可以實現 AGI,可以帶來指令遵循能力和 Agent 能力,這是一個邏輯自洽的閉環。

但 OpenAI 手上的大牌就更多了。第一張是 ChatGPT,Sam Altman 可能想把它做成 10 億日活的產品。第二張是它的「o」系列模型(GPT-4o 等),預期很高,能帶來更多泛化能力。第三張是多模態,它的多模態推理能力上來了,未來在生成上也能體現。所以,Anthropic 摸到了一張大牌,OpenAI 摸到了三張。

另一個大廠是 Google。我覺得到今年年底,Google 可能會在全方位趕上。因為它既有 TPU,又有 Google Cloud,有頂尖的 Gemini 模型,還有 Android 和 Chrome。你在全球找不到第二家擁有所有這些要素,還幾乎不依賴外部的公司。Google 端到端能力是非常強的,很多人擔心它的廣告業務會被顛覆,但我感覺它未來可能會找到新的產品結合方式,從一個信息引擎變成一個任務引擎。

你看蘋果,因為沒有自己的 AI 能力,現在迭代就很被動。而微軟是以開發者見長的,但 Cursor 和 Claude 其實搶了不少開發者的注意力。當然微軟的盤子非常穩,有 GitHub 和 VS Code,但它也必須擁有非常強的 AGI 和模型能力。所以你看它也宣佈 GitHub 的首選模型之一變成了 Claude,並迭代自己的開發者產品。微軟在開發者這塊必須守住,否則根基就沒了。

所以大家開始分化了。可能 OpenAI 想成為下一個 Google,Anthropic 想成為下一個 Windows(靠 API 活著)。

張鵬:那與 Agent 相關的基礎設施(Infra)有哪些變化和機會?

鍾凱祺 (Cage):Agent 有幾個關鍵組件。除了模型,第一個就是環境(Environment)。Agent 開發最早期,80% 的問題都出在環境上。像早期的 AutoGPT,要麼用 Docker 啟動,非常慢,要麼直接在本地電腦部署,非常不安全。如果一個 Agent 要和我一起「上班」,我就得給它配一臺「電腦」,所以環境的機會就出來了。

配「電腦」有兩大需求:

1、虛擬機 / 沙盒:提供一個安全的執行環境。任務做錯了能回退,執行過程不能傷害實際環境,並且要能快速啟動、穩定運行。像 E2B、Modal Labs 這樣的公司都在提供這類產品。

2、瀏覽器:信息檢索是最大需求,Agent 需要到各種網站上爬取信息。傳統的爬蟲容易被封,所以需要給 Agent 搭一個專用的、能理解信息的瀏覽器。這就應運而生了像 Browserbase、Browser Use 這樣的公司。

第二個組件是上下文(Context)。這包括:

  • 信息檢索(Retrieval):傳統的 RAG 公司還在,但也有新的公司,比如 MemGPT,它為 AI Agent 開發輕量化的記憶和上下文管理工具。

  • 工具發現:未來工具會非常多,需要一個像「大眾點評」一樣的平臺來幫助 Agent 發現和挑選好用的工具。

  • 記憶(Memory):Agent 需要一套能模擬人類複雜的長短期記憶結合能力的 Infra。

第三個組件是工具(Tools)。包括簡單的搜索,也包括複雜的支付、自動化後端開發等。

最後,當 Agent 能力再強一些,一個重要的機會就是 Agent 安全(Agent Security)。

李廣密:Agent Infra 非常重要。我們可以「以終為始」地想,三年後,當幾萬億的 Agent 在數字世界裡執行任務,那 Infra 的需求就太大了,這將重構整個雲計算和數字化世界。

但今天我們還不知道什麼樣的 Agent 能做大,它到底需要什麼樣的 Infra。所以現在對創業者是一個非常好的窗口期,可以和那些做得好的 Agent 公司共同設計(co-design)和共創 Infra 工具。

我覺得今天最重要的,第一是虛擬機,第二是工具。比如未來的 Agent 搜索肯定和人的搜索不一樣,會產生天量的機器搜索需求。現在全網人類的搜索每天可能 200 億次,未來機器搜索可能是幾千億甚至上萬億次。這種搜索不需要給人類做排序優化,可能一個大的數據庫就夠了,這裡有很大的成本優化和創業機會。

09 當 AI 不再只是大模型,它會往哪個方向進化?

張鵬:Agent 始終繞不開模型,站在今天,你覺得模型技術在過去兩年裡走過了哪些關鍵的臺階?

李廣密:我覺得關鍵的里程碑(milestone)可能就兩個。一個是 GPT-4 代表的規模化定律(Scaling Law)範式,即在預訓練階段,擴大規模仍然是有效的,它能帶來通用的泛化能力。

第二個大的里程碑是「o」系列模型所代表的「模型會思考」的範式。它通過更長的思考時間(思維鏈),顯著提升了推理能力。

我覺得這兩個範式是今天 AGI 的左膀右臂。在這個基礎上,Scaling Law 遠遠沒有停止,思考模式也會繼續。比如,在多模態下可以繼續 Scaling,也可以把「o」系列的思考能力加到多模態上,這樣多模態就能有更長的推理能力,生成的可控性和一致性就會變得非常好。

我自己的感覺是,未來兩年可能比過去兩年進步要更快。今天可能正處在一個全球幾千名頂尖 AI 科學家,共同推動人類科技文藝復興的狀態,資源充足,平臺也具備了,很多地方都可能出現突破。

張鵬:你會比較期待接下來一兩年,在 AI 領域看到哪些技術臺階的實現和跳躍?

鍾凱祺 (Cage):第一個是多模態。現在多模態的理解和生成還是比較零散的,未來一定會走向「大一統」,即理解和生成一體化。這會極大地打開產品的想象力。

第二個是自主學習。我很喜歡 Richard Sutton(強化學習之父)提出的「經驗的時代」(the era of experience)這個概念,即 AI 通過在線執行任務的體驗來提升自己的能力。這在以前是看不到影子的,因為沒有基座的世界知識。但從今年開始往後,這會是一個持續發生的事情。

2024 年圖靈獎獲獎者 Richard Sutton |圖源:Amii

第三個是記憶。如果模型真的能在產品和技術層面把 Agent 的記憶做好,帶來的突破會非常大。產品的粘性才真正出現。我感覺 GPT-4o 開始有記憶的那一刻,我才真正對 ChatGPT 這款應用產生了粘性。

最後是新交互。會不會有不再是文字輸入框的新交互?因為打字這個門檻其實挺高的。未來會不會有更符合人類直覺和本能的交互方式?比如,我有一個「永遠在線」(Always-on)的 AI 產品,它在後臺不斷地聽我說話、異步思考,在我靈感迸發的那一刻,能捕捉到關鍵的上下文。我覺得這些都是我比較期待的。

張鵬:確實,今天我們面臨的挑戰和機遇並存。一方面,我們不能被技術發展的速度「拉爆」,要保持持續的關注。另一方面,今天的 AI 產品正在從「工具」走向「關係」。人不會和工具建立關係,但會和一個有記憶、懂你、能與你「心有靈犀」的 AI 建立關係。這種關係本質上就是習慣和慣性,這也是未來重要的壁壘。

今天的探討非常深入,感謝廣密和凱祺的精彩分享。也感謝直播間觀眾的陪伴。我們下期《今夜科技談》再見。

李廣密:謝謝。

鍾凱祺 (Cage):謝謝。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論