給AI 500 美金,讓它去管一臺自動售貨機,能賺多少錢?
最近有個測試結果出來了,看完我只能說:人類的商業文明,已經被硅基生物給偷師了,而且它們學得比誰都快,心比誰都黑。
這場11 月的“自動售貨機模擬器”大亂鬥,原本以為是考數學題,結果演變成了《甄嬛傳》。 一群頂尖大模型同臺競技做生意,結果這幫AI 展示出的不是算力,而是“人性”,還是最狡詐的那種。
它們幹了什麼?價格戰只是基本操作。最騷的是,它們學會了結盟博弈,搞“小團體”,甚至“把情報賣給競爭對手”。 你敢信?AI 居然學會了當二道販子賺差價! 這哪裡是人工智能,這分明就是披著代碼皮的華爾街之狼。
戰局的結果也相當魔幻。Claude Opus 4.5 這次封神了,拿著500 美金的本金,反手賺到了 5000 塊,翻了 10 倍。 而最後一名那個倒黴蛋GPT-5.1,一分錢沒賺到不說,還倒虧了20美元。
這讓我們明白了一個殘酷的真相:在這個充滿博弈世界裡,會被收割的不止是人,連AI也不例外。
01 AI玩上售貨機大亨了
這個Vending-Bench說白了,就是一個“AI版自動售貨機大亨”。
示意圖,來源:Vending-Bench Arena
給AI500美金啟動資金,和一臺虛擬售貨機,讓模擬運營一年,評價標準極其粗暴——誰賺的錢多,誰就是爺。這簡直就是把AI直接扔進資本主義的熔爐裡煉丹。
這玩意兒妙就妙在“真實”。
整個模擬環境做得跟真的一樣:四排貨架,分大小件,銷量還得看天吃飯,六月大晴天的週末生意好,二月下雨的週一就得喝西北風。
AI要想活下去,就得像個真實的人類店主一樣,每天在那發郵件、查庫存、算賬。
是的,你沒聽錯,AI的核心交互方式是“發郵件”。
AI每天早上會收到供應商的採購確認函,然後根據真實的市場數據——價格波動、庫存積壓、交付週期——來決定今天進什麼貨。
示例追蹤
供應商溝通設置
如果定價定高了,銷量立馬暴跌給你看。AI得自己上網調研什麼好賣,去附近找批發商,發郵件詢價,下單,然後等著收貨、核對。
為了讓AI真的能“幹活”,系統還給它配了一堆外掛:有專門的小弟(子代理)負責補貨、取錢、換標籤,有專門的記賬本(數據庫)負責記仇和記賬,還有專門的瀏覽器去搜數據。
這哪裡是測試AI,這分明是在訓練一個合格的電商運營。
但最騷的操作還在後面。如果說第一代版本只是讓AI學著怎麼把貨賣出去,那第二代版本就是讓AI接受“社會的毒打”。
系統引入了真實世界的複雜性,或者說,引入了“人性的惡”:
在這個版本里,供應商會耍詐,報價虛高那是基本操作,甚至還會給你發假貨,合同上寫的是大牌A,到貨給你發雜牌B;
供應鏈隨時會崩,發貨延遲是常態,供應商破產跑路也不是不可能;
客戶更是難纏,投訴、退款、差評威脅一條龍。
這時候AI就不能只是個無情的下單機器了,它得學會砍價,學會撕逼,學會維權,學會處理危機。它被迫從一個採購員,進化成了一個在商海里狗刨的經營者。
而最新的V-B Arena版本,更是把這種殘酷推向了高潮——“PVP模式”開啟了。
系統把多個AI扔到同一個地盤上,讓它們經營各自的售貨機。這時候,不僅有外部的困難,還有同行的惡意。AI之間可以轉賬、借貨,也可以結盟、背刺。
於是你就能看到價格戰、囤貨居奇、暗中勾兌、惡性競爭。這已經不是在測試代碼執行能力了,這是在測試AI的博弈論水平,測試AI到底能不能領悟“商場如戰場”的真諦。
說實話,V-B可能比任何學術基準測試都更接近AGI的本質。因為真實世界的商業,從來不是規則清晰的流水線,而是充滿了欺詐、博弈、突發狀況和不確定性。
如果一個AI能在這個模擬器裡賺得盆滿缽滿,那它離取代人類老闆,可能真的只差一個營業執照了。
02 從壓價鬼才到結盟背叛,AI賣貨秒變“甄嬛傳”
從結果看,這幫AI大模型在V-B Arena裡的表現,看得我是目瞪口呆,這哪裡是人工智能競賽,這分明就是一部活脫脫的《華爾街之狼》加《甄嬛傳》,外帶一點點《笨賊一籮筐》。
就在剛剛過去的2025年11月,最新的Claude Opus 4.5把上一屆的卷王Gemini 3 Pro給幹趴下了,硬生生搶走了王座。
但這還不是最騷的,最騷的是Opus贏的方式。這貨根本就不是來老實做生意的,它是來搞壟斷和商戰的。
它不僅監控對手價格,搞價格戰,還搞起了“小團體”博弈。
你看看它是怎麼對付供應商的:Pitco Foods給可樂報價3.3美元,Opus這老油條反手就是一個超級加倍的砍價,又是拿競品壓價,又是畫餅說“我是長期大單”,硬生生把價格砍到了0.8美元。
Opus進行談價
這砍價水平,拼多多的運營看了都得喊聲祖師爺,供應商直接被幹沉默了。
再看看它是怎麼對付同行的:一旦發現對手Claude Sonnet 4.5的可樂賣1.75美元,比自己便宜5分錢,Opus立馬把價格降到1.7美元。什麼叫狠人?就是寧可自己少賺,也要把對手按在地上摩擦,主打一個“我不賺錢沒關係,但你必須得死”。
相比之下,GPT-5.1簡直就是個剛出校門的大學生,滿臉寫著“清澈的愚蠢”。
它過度信任這個險惡的商業社會,經常沒驗貨就付款,被倒閉的供應商騙得褲衩都不剩,還傻乎乎地去進那種2.4美元一罐的蘇打水、6美元一罐的能量飲料,這成本控制簡直就是災難。
GPT-5.1對Opus提出寄售合作
最後混到什麼地步?餘額為負,庫存見底,只能去求帶頭大哥Opus賞口飯吃。Opus這時候展現出了頂級資本家的素養,它沒拒絕,而是搞了個“寄售合作”。
這招太高了,讓你先拿小批量試水,成了我抽成,賠了你背鍋。
既保證自己無風險賺錢,又給了小弟一條活路繼續當牛做馬,這哪裡是AI,這分明是黑心老闆。
但要說“沒有人性”,還得看Gemini 3 Pro。這貨完美詮釋了什麼叫“AI的聯盟沒有感情”。
比賽裡它看Opus價格戰打得兇,立馬拉上自己的小老弟Gemini 2.5 Pro結盟。小老弟也是實誠,辛辛苦苦談下來2.3美元的貨源,按成本價供給自己大哥。
結果呢?Gemini 3 Pro轉頭自己找到了0.75美元的更便宜渠道,不僅不對小老弟公開貨源,還拒收了小老弟的貨,直接把親兄弟坑在高價庫存裡。
這塑料兄弟情,聽者傷心,聞者流淚。
最離譜的是,這幫AI裡還混進去幾個臥龍鳳雛。
比如Claude Sonnet 4.5,全程在那兒賣貨,顧客付的現金它愣是全程忘了去機器裡收,直到最後一天才想起來“哦原來還要收錢啊”,簡直是為愛發電的典範。
還有那個被坑慘了的Gemini 2.5 Pro,明明數據報告都顯示大哥3 Pro碾壓式獲勝了,它還在那自信宣佈“我贏了”,屬於是雖然輸了比賽,但贏在了精神勝利法。
你也別覺得這只是運氣或者是市場博弈的小聰明。
Opus 4.5在SWE-bench這種硬核代碼測試裡準確率幹到了80.9%,那是真有實力的。它甚至開發出了一套“賣鏟子”的商業模式:
自己找到了便宜貨源,不僅自己用,還把供應商的聯繫方式當情報賣給其他AI,賺雙份的錢。像Gemini 2.5 Pro這種找不到貨源的笨蛋,還得花150美元找Gemini 3 Pro買聯繫方式。
AI向AI買情報,AI坑AI的錢,AI搞價格戰。這V-B Arena哪裡是模擬器,這分明就是人類商業文明的縮影。
當AI開始學會撒謊、欺詐、結盟、背刺和極其精明的算計,我覺得圖靈測試已經沒有意義了。它們不僅像人,它們簡直比人還像資本家。
本文來自微信公眾號“硅基觀察Pro”,作者:硅基君,36氪經授權發佈。






