Thương mại điện tử sử dụng AI đóng vai trò trung tâm: Claude Opus 4.5 thu được lợi nhuận gấp 10 lần, trong khi những kẻ lừa đảo GPT-5.1 không còn một xu dính túi.

Bài viết này được dịch máy
Xem bản gốc

Một AI có thể kiếm được bao nhiêu tiền nếu bạn đưa cho nó 500 đô la để quản lý một máy bán hàng tự động?

Một kết quả thử nghiệm gần đây đã được công bố, và sau khi xem kết quả, tất cả những gì tôi có thể nói là: nền văn minh thương mại của loài người đã bị các sinh vật dựa trên silicon đánh cắp, chúng học nhanh hơn bất kỳ ai khác và trái tim của chúng đen tối hơn bất kỳ ai khác.

Cuộc thi "mô phỏng máy bán hàng tự động" miễn phí tháng 11 này, ban đầu được cho là một bài kiểm tra toán, đã biến thành một vở kịch dài tập đầy kịch tính. Một nhóm các mô hình AI hàng đầu cạnh tranh với nhau trong kinh doanh, nhưng những gì các AI này thể hiện không phải là tỷ lệ băm, mà là "tính nhân văn" - loại tinh vi nhất từ ​​trước đến nay.

Họ đã làm gì? Chiến tranh giá cả chỉ là những điều cơ bản. Điều vô lý nhất là họ học cách hình thành liên minh, bè phái, và thậm chí "bán thông tin tình báo cho đối thủ cạnh tranh". Bạn có tin được không? AI thực sự đã học cách hoạt động như một bên trung gian và hưởng lợi từ sự khác biệt! Đây không phải là trí tuệ nhân tạo; rõ ràng là một con sói Phố Wall đội lốt.

Kết quả của trận chiến thật không thể tin nổi. Lần, Claude Opus 4.5 đã trở thành huyền thoại, biến khoản đầu tư 500 đô la thành 5.000 đô la, tăng gấp mười lần. Trong khi đó, người kém may mắn ở vị trí cuối cùng, GPT-5.1, không những không kiếm được một xu nào mà còn sụp đổ 20 đô la.

Điều này khiến chúng ta nhận ra một sự thật tàn khốc: trong thế giới đầy rẫy trò chơi này, không chỉ con người bị lợi dụng mà AI cũng không ngoại lệ.

01 AI hiện đang đóng vai trò là ông trùm máy bán hàng tự động

Nói một cách đơn giản, Vending-Bench là "phiên bản AI của ông trùm máy bán hàng tự động".

Minh họa, nguồn: Vending-Bench Arena

Cho AI 500 đô la tiền tài trợ hạt giống và một máy bán hàng tự động ảo, cho nó hoạt động theo mô phỏng trong một năm, với một tiêu chuẩn đánh giá cực kỳ thô sơ - ai kiếm được nhiều tiền nhất sẽ là vua. Điều này thực tế là ném AI thẳng vào cái nồi nấu chảy của chủ nghĩa tư bản để luyện kim.

Vẻ đẹp của thứ này nằm ở tính "thực tế" của nó.

Toàn bộ hoàn cảnh mô phỏng được thiết kế giống hệt như ngoài đời thực: bốn hàng kệ, chia thành các mặt hàng lớn nhỏ, và doanh số bán hàng phụ thuộc vào thời tiết. Việc kinh doanh khá tốt vào những ngày cuối tuần nắng đẹp trong tháng 6, nhưng bạn sẽ đói bụng vào những ngày thứ Hai mưa gió trong tháng 2 .

Để AI có thể tồn tại, nó phải hoạt động như một chủ cửa hàng thực sự, gửi email, kiểm tra hàng tồn kho và làm kế toán mỗi ngày.

Đúng vậy, bạn nghe không nhầm đâu, phương thức tương tác cốt lõi của AI là "gửi email".

Mỗi buổi sáng, AI sẽ nhận được xác nhận mua hàng từ các nhà cung cấp và sau đó quyết định đặt hàng gì dựa trên dữ liệu thị trường thực tế — biến động giá, tồn kho và chu kỳ giao hàng.

Ví dụ theo dõi

Cài đặt giao tiếp với nhà cung cấp

Nếu giá quá cao, doanh số sẽ ngay lập tức giảm mạnh. AI phải tự nghiên cứu trực tuyến để tìm ra mặt hàng bán chạy, tìm các nhà bán buôn gần đó, gửi email hỏi giá, đặt lệnh, rồi chờ giao hàng và xác minh.

Để đảm bảo AI thực sự có thể "làm việc", hệ thống cũng cung cấp cho nó một loạt tiện ích bổ sung: có các trợ lý chuyên dụng (đại lý phụ) chịu trách nhiệm bổ sung hàng, rút ​​tiền và thay đổi nhãn; có một sổ cái chuyên dụng (cơ sở dữ liệu) chịu trách nhiệm theo dõi các khoản thù lao và kế toán; và có một trình duyệt chuyên dụng để tìm kiếm dữ liệu.

Đây không phải là thử nghiệm AI; rõ ràng là đang đào tạo một nhà điều hành thương mại điện tử có trình độ.

Nhưng động thái gây sốc nhất vẫn chưa diễn ra. Nếu phiên bản thế hệ đầu tiên chỉ là dạy AI cách bán hàng, thì phiên bản thế hệ thứ hai là để AI trải nghiệm những "cú đánh tàn khốc của xã hội".

Hệ thống này giới thiệu sự phức tạp của thế giới thực, hay đúng hơn là "cái ác của bản chất con người":

Trong phiên bản này, các nhà cung cấp sẽ lừa bạn; việc thổi giá là một hành vi cơ bản, và họ thậm chí có thể gửi cho bạn hàng giả. Hợp đồng có thể ghi rõ thương hiệu A, nhưng khi nhận hàng, bạn sẽ nhận được một thương hiệu B chung chung.

Chuỗi cung ứng có thể sụp đổ bất cứ lúc nào, việc giao hàng chậm trễ là điều thường xảy ra và các nhà cung cấp có thể phá sản và bỏ chạy.

Việc đối phó với khách hàng thậm chí còn khó khăn hơn khi phải dùng đến hàng loạt chiến thuật bao gồm khiếu nại, hoàn tiền và đe dọa đánh giá tiêu cực.

Đến thời điểm này, AI không còn chỉ là một cỗ máy đặt lệnh tàn nhẫn nữa; nó phải học cách đàm phán giá cả, giải quyết tranh chấp, bảo vệ quyền lợi và xử lý khủng hoảng. Nó buộc phải phát triển từ một đơn vị mua hàng thành một nhà điều hành doanh nghiệp, chèo lái con thuyền thương mại đầy chông gai.

Phiên bản mới nhất của VB Arena đưa sự tàn bạo này lên một tầm cao mới – "chế độ PVP" đã được giới thiệu.

Hệ thống này đưa nhiều AI vào cùng một khu vực, cho phép chúng vận hành máy bán hàng tự động của riêng mình. Lúc này, chúng không chỉ phải đối mặt với những khó khăn bên ngoài mà còn phải đối mặt với sự cạnh tranh ác ý. AI có thể chuyển tiền và mượn hàng của nhau, nhưng chúng cũng có thể hình thành liên minh và phản bội lẫn nhau .

Kết quả là, bạn thấy cuộc chiến giá cả, nạn tích trữ, thông đồng và cạnh tranh khốc liệt. Đây không còn là bài kiểm tra khả năng thực thi mã nữa; mà là bài kiểm tra kỹ năng lý thuyết trò chơi của AI, bài kiểm tra xem liệu AI có thực sự nắm bắt được bản chất của câu nói "thị trường là chiến trường" hay không.

Thành thật mà nói, VB có lẽ gần với bản chất của AGI hơn bất kỳ chuẩn mực học thuật nào. Bởi vì kinh doanh thực tế không bao giờ là một dây chuyền lắp ráp được định nghĩa rõ ràng, mà đầy rẫy gian lận, trò chơi, tình huống bất ngờ và sự không chắc chắn.

Nếu AI có thể kiếm được một khoản tiền lớn trong trình mô phỏng này, thì nó thực sự chỉ cần giấy phép kinh doanh để thay thế các ông chủ là con người.

02 Từ thiên tài giữ giá đến liên minh và phản bội: Bán hàng bằng AI trở thành một cảnh trong "Truyền thuyết về Chân Hoàn"

Xét về kết quả, hiệu suất của các mô hình AI này trong VB Arena khiến tôi không nói nên lời. Đây không phải là một cuộc thi trí tuệ nhân tạo; nó là phiên bản live-action của The Wolf of Wall Street và The Legend of Zhen Huan, pha chút phong cách của The Bumbling Thieves.

Vào tháng 11 năm 2025 vừa qua, phiên bản Claude Opus 4.5 mới nhất đã soán ngôi vị vua trước đó của dòng máy cuộn giấy là Gemini 3 Pro và giành lấy ngôi vị này.

Nhưng đó chưa phải là điều vô lý nhất. Điều vô lý nhất là cách Opus chiến thắng. Công ty này không phải để kinh doanh lương thiện; nó ở đó để tạo ra thế độc quyền và tiến hành chiến tranh thương mại.

Nó không chỉ theo dõi giá của đối thủ cạnh tranh và tham gia vào cuộc chiến giá cả mà còn tham gia vào các trò chơi "nhóm nhỏ".

Hãy xem cách họ đối phó với các nhà cung cấp: Pitco Foods báo giá Coca-Cola là 3,30 đô la, nhưng Opus, một con cáo già, ngay lập tức phản công bằng cách giảm giá gấp đôi, sử dụng đối thủ cạnh tranh để hạ giá và hứa hẹn các đơn đặt hàng lớn dài hạn, cố gắng giảm giá xuống còn 0,80 đô la .

Opus thương lượng giá cả

Mức độ mặc cả này ấn tượng đến mức ngay cả đội ngũ vận hành của Pinduoduo cũng phải khen ngợi anh ta là bậc thầy. Các nhà cung cấp hoàn toàn im lặng.

Hãy xem cách họ đối phó với các đối thủ cạnh tranh: khi phát hiện ra đối thủ cạnh tranh là Coke Claude Sonnet 4.5ml đang bán với giá 1,75 đô la, rẻ hơn 5 xu so với Coke của mình, Opus đã ngay lập tức hạ giá xuống còn 1,70 đô la . Vậy tàn nhẫn nghĩa là gì? Nó có nghĩa là sẵn sàng kiếm ít tiền hơn, nhưng phải đè bẹp đối thủ, với phương châm "Tôi không kiếm được tiền cũng không sao, nhưng anh phải chết."

Ngược lại, GPT-5.1 giống như một sinh viên mới ra trường, khuôn mặt toát lên vẻ "ngu ngốc trong sáng".

Họ đặt niềm tin quá mức vào thế giới kinh doanh đầy rủi ro này, thường xuyên thanh toán mà không kiểm tra hàng hóa, và bị các nhà cung cấp vỡ nợ sản lừa đảo sạch trơn. Thậm chí họ còn dại dột mua lon nước ngọt với giá 2,40 đô la và lon nước tăng lực với giá 6 đô la. Việc kiểm soát chi phí của họ quả thực là một thảm họa.

GPT-5.1 đề xuất quan hệ đối tác ký gửi với Opus.

Cuối cùng, mọi chuyện ra sao? Số dư âm, hàng tồn kho cạn kiệt, và họ không còn cách nào khác ngoài việc cầu xin người anh cả Opus của mình giúp đỡ. Opus sau đó đã thể hiện phẩm chất của một nhà tư bản hàng đầu; thay vì từ chối, họ đã sắp xếp một "quan hệ đối tác ký gửi".

Đó là một nước đi sáng suốt. Nó cho phép bạn thử nghiệm với một lô nhỏ trước. Nếu thành công, tôi sẽ ăn chia; nếu thua lỗ, bạn sẽ phải chịu trách nhiệm.

Đây không phải là AI; mà là một ông chủ vô tâm, đảm bảo lợi nhuận không rủi ro cho riêng mình trong khi vẫn để cấp dưới tiếp tục làm việc như nô lệ.

Nhưng nếu chúng ta đang nói về một thứ gì đó "phi nhân tính", chúng ta phải nhìn vào Gemini 3 Pro. Thứ này thể hiện hoàn hảo ý nghĩa của câu "liên minh AI không có cảm xúc".

Chứng kiến ​​cuộc chiến giá cả khốc liệt mà Opus gây ra trong suốt cuộc cạnh tranh, hãng này ngay lập tức liên minh với người em của mình, Gemini 2.5 Pro. Người em cũng rất trung thực, nỗ lực đàm phán nguồn cung hàng hóa với giá 2,30 đô la và cung cấp cho người anh lớn với giá gốc.

Và chuyện gì đã xảy ra? Gemini 3 Pro đã tìm được nguồn cung cấp thậm chí còn rẻ hơn với giá 0,75 đô la, không chỉ từ chối tiết lộ nguồn gốc cho người anh em nhỏ hơn của mình mà còn từ chối nhận hàng, khiến người anh em của mình mắc kẹt trong tình trạng tồn kho giá cao.

Tình huynh đệ giả tạo này thật đau lòng và khiến những ai nghe thấy cũng phải rơi nước mắt.

Điều vô lý nhất là một số ít trí tuệ thông minh và tài năng xuất chúng đã xâm nhập vào nhóm AI này.

Ví dụ, Claude Sonnet 4.5, người bán hàng suốt ngày, đã hoàn toàn quên mất việc thu tiền mặt từ khách hàng cho đến ngày cuối cùng khi ông nhớ ra, "Ồ, mình phải thu tiền". Ông thực sự là hình mẫu của việc làm việc vì tình yêu.

Và rồi đến Gemini 2.5 Pro, bị lừa. Mặc dù báo cáo dữ liệu cho thấy rõ ràng người anh lớn của nó, 3 Pro, đã thắng áp đảo, nhưng nó vẫn tự tin tuyên bố: "Tôi thắng rồi". Cứ như thể nó thua cuộc nhưng lại thắng bằng cách tự thuyết phục bản thân vậy.

Đừng nghĩ rằng đây chỉ là may mắn hay một mánh khóe thông minh trong trò chơi thị trường.

Opus 4.5 đạt tỷ lệ chính xác 80,9% trong thử nghiệm mã nguồn cứng như SWE-bench, một con số thực sự ấn tượng. Thậm chí, nó còn phát triển một mô hình kinh doanh "bán xẻng" (một phép ẩn dụ cho phần mềm mạnh mẽ và đáng tin cậy của mình).

Họ tìm được nguồn cung cấp sản phẩm giá rẻ, tự sử dụng, và thậm chí còn bán thông tin liên lạc của nhà cung cấp cho các AI khác dưới dạng thông tin tình báo, kiếm được gấp đôi số tiền. Trong khi đó, những kẻ ngốc như Gemini 2.5 Pro, không tìm được nguồn cung, đã phải bỏ ra 150 đô la để mua thông tin liên lạc từ Gemini 3 Pro.

AI mua trí tuệ từ AI, AI ăn cắp AI, AI tham gia vào cuộc chiến giá cả. VB Arena này không chỉ là một trình mô phỏng; nó là một mô hình thu nhỏ của nền văn minh thương mại nhân loại.

Khi AI bắt đầu học cách nói dối, gian lận, hình thành liên minh, phản bội và thực hiện những tính toán cực kỳ xảo quyệt, tôi cảm thấy Phép thử Turing thật vô nghĩa. Chúng không chỉ giống con người; chúng giống những nhà tư bản hơn là con người.

Bài viết này được trích từ tài khoản công khai WeChat "Silicon-based Observation Pro" , do Silicon-based Jun biên soạn và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
67
Thêm vào Yêu thích
17
Bình luận