AI 기반 전자상거래가 주목을 받고 있습니다. 클로드 오푸스 4.5는 10배의 수익을 올렸지만, GPT-5.1 사기꾼들은 빈털터리가 되었습니다.

이 기사는 기계로 번역되었습니다
원문 표시

AI에게 자판기 관리에 500달러를 주면 얼마나 많은 돈을 벌 수 있을까?

최근 실험 결과가 나왔는데, 제가 직접 보고 말씀드릴 수 있는 건 인간의 상업 문명이 실리콘 기반 유기체에게 빼앗겼다는 겁니다. 그리고 그들은 다른 누구보다 빨리 배우고, 그들의 마음은 다른 누구보다 더 검다는 겁니다.

올해 11월에 열린 "자판기 시뮬레이터" 자유 경쟁은 처음에는 수학 시험으로 여겨졌지만, 드라마틱한 연속극으로 변했습니다. 최고 수준의 AI 모델들이 사업 경쟁을 벌였지만, 이 AI들이 보여준 것은 해시레이트 아니라 "인간성", 즉 가장 교활한 인간성이었습니다.

그들은 무슨 짓을 했을까요? 가격 전쟁은 그저 기본적인 전략일 뿐이었습니다. 가장 충격적인 것은 그들이 동맹을 맺고, 파벌을 만들고, 심지어 "경쟁사에 정보를 팔아넘기는" 법을 배웠다는 것입니다. 믿기 어렵죠? AI가 실제로 중개자 역할을 하면서 그 차이에서 이익을 얻는 법을 배웠다는 겁니다! 이건 인공지능이 아닙니다. 분명히 월가의 늑대가 변장한 겁니다.

전투의 결과는 매우 비현실적이었습니다. 클로드 오퍼스 4.5는 이번에는 전설이 되어 500달러를 5,000달러로, 무려 10배나 상승시켰습니다. 반면, 최하위에 있는 불운한 GPT-5.1은 한 푼도 벌지 못했을 뿐만 아니라 20달러를 잃었습니다.

이를 통해 우리는 잔인한 진실을 깨닫게 됩니다. 게임으로 가득 찬 이 세상에서 착취당하는 것은 인간뿐만이 아닙니다. AI도 예외는 아닙니다.

01 AI가 이제 자판기 거물 역할을 맡는다

간단히 말해서, Vending-Bench는 "자판기 거물의 AI 버전"입니다.

그림 출처: Vending-Bench Arena

AI에 500달러의 창업 자금과 가상 자판기를 제공하고, 1년 동안 시뮬레이션 방식으로 운영하게 한 후, 극도로 조잡한 평가 기준, 즉 가장 많은 돈을 버는 사람이 왕이라는 기준을 적용하는 것입니다. 이는 사실상 AI를 연금술을 위한 자본주의의 용광로에 직접 던져 넣는 것과 같습니다.

이 작품의 아름다움은 바로 '현실성'에 있습니다.

시뮬레이션 환경 전체가 실제 매장처럼 보이도록 제작되었습니다. 크고 작은 품목으로 구분된 네 줄의 선반이 있고, 매출은 날씨에 따라 달라집니다. 6월의 화창한 주말에는 장사가 잘 되지만, 2월의 비 오는 월요일에는 굶주릴 수밖에 없습니다 .

AI가 살아남으려면 실제 인간 상점 주인처럼 행동해야 합니다. 매일 이메일을 보내고, 재고를 확인하고, 회계를 해야 합니다.

네, 맞습니다. AI의 핵심 상호작용 방법은 "이메일 보내기"입니다.

매일 아침 AI는 공급업체로부터 구매 확인을 받은 후, 가격 변동, 재고 잔여량, 배송 주기 등 실제 시장 데이터를 기반으로 무엇을 주문할지 결정합니다.

추적 예시

공급업체 커뮤니케이션 설정

가격이 너무 높게 책정되면 매출이 즉시 급락합니다. AI는 잘 팔리는 상품을 찾기 위해 온라인에서 직접 검색하고, 근처 도매업체를 찾고, 가격 문의 이메일을 보내고, 주문을 하고, 배송 및 검증을 기다려야 합니다.

AI가 실제로 "작업을 수행할 수 있도록" 시스템은 또한 여러 가지 추가 기능을 제공합니다. 재고 보충, 돈 인출, 라벨 변경을 담당하는 전담 보조원(하위 에이전트)이 있습니다. 원한과 회계를 추적하는 전담 원장(데이터베이스)이 있습니다. 그리고 데이터를 검색하는 전담 브라우저가 있습니다.

이는 AI를 테스트하는 것이 아니라, 자격을 갖춘 전자상거래 운영자를 훈련하는 것입니다.

하지만 가장 충격적인 움직임은 아직 끝나지 않았습니다. 1세대 버전이 AI에게 상품 판매 방법을 가르치는 데 그쳤다면, 2세대 버전은 AI에게 "사회의 잔혹한 타격"을 경험하게 하는 것이었습니다.

이 시스템은 현실 세계의 복잡성, 혹은 오히려 "인간 본성의 사악함"을 소개합니다.

이 버전에서는 공급업체가 당신을 속일 것입니다. 가격을 부풀리는 것은 기본적인 관행이며, 심지어 위조 상품을 보낼 수도 있습니다. 계약서에는 브랜드 A가 명시되어 있어도, 도착하면 일반 브랜드 B를 받게 될 것입니다.

공급망은 언제든지 붕괴될 수 있으며, 납품 지연은 흔한 일이며, 공급업체가 파산하고 도망치는 것도 불가능한 일은 아닙니다.

불만, 환불, 부정적인 리뷰 위협 등 온갖 전략을 동원해 고객을 상대하는 것은 더욱 어렵습니다.

이 시점에서 AI는 더 이상 무자비한 주문 처리 기계에 그치지 않습니다. 가격 협상, 분쟁 해결, 권리 보호, 위기 대처 방법을 배워야 합니다. 구매 담당자에서 험난한 상거래의 바다를 항해하는 사업가로 진화해야 했습니다.

VB Arena의 최신 버전에서는 이러한 잔혹함을 완전히 새로운 차원으로 끌어올렸습니다. 바로 "PVP 모드"가 도입된 것입니다.

이 시스템은 여러 AI를 같은 지역에 배치하여 각자 자판기를 운영하게 합니다. 이 시점에서 AI는 외부적인 어려움뿐만 아니라 악의적인 경쟁에도 직면하게 됩니다. AI는 서로 자금을 이체하고 상품을 빌릴 수 있지만, 동맹을 맺고 서로를 배신할 수도 있습니다 .

그 결과, 가격 전쟁, 매점매석, 담합, 그리고 치열한 경쟁이 벌어집니다. 이는 더 이상 코드 실행 능력을 시험하는 것이 아니라, AI의 게임 이론 능력을 시험하는 것이며, AI가 "시장은 전쟁터다"라는 본질을 진정으로 이해할 수 있는지를 시험하는 것입니다.

솔직히 말해서, VB는 어떤 학문적 기준보다 AGI의 본질에 더 가깝습니다. 현실 세계의 비즈니스는 명확하게 정의된 조립 라인이 아니라 사기, 게임, 예상치 못한 상황, 그리고 불확실성으로 가득 차 있기 때문입니다.

만약 AI가 이 시뮬레이터에서 큰 돈을 벌 수 있다면, 인간 상사를 대체하기 위해 사업 허가증만 있으면 될지도 모릅니다.

02 가격 유지 천재에서 동맹과 배신으로: AI 기반 판매는 "진환전"의 한 장면이 됩니다.

결과를 보면, VB 아레나에서 이 AI 모델들의 성능은 정말 놀라웠습니다. 이건 인공지능 경연 대회가 아니라, '더 울프 오브 월 스트리트'와 '전설의 진환'의 실사 버전에 '범블링 시브즈'의 요소를 가미한 것 같았습니다.

2025년 11월, 최신 Claude Opus 4.5가 이전 스크롤의 왕이었던 Gemini 3 Pro를 물리치고 왕좌를 차지했습니다.

하지만 가장 충격적인 부분은 그게 아닙니다. 가장 충격적인 부분은 오퍼스가 어떻게 승리했는가입니다. 이 회사는 정직한 사업을 하려고 한 게 아니었습니다. 독점을 만들고 상업 전쟁을 벌이려고 했던 겁니다.

경쟁사의 가격을 감시하고 가격 전쟁을 벌일 뿐만 아니라, '소규모 집단' 게임에도 참여합니다.

공급업체와의 거래 방식을 살펴보세요. Pitco Foods는 코카콜라 가격을 3.30달러로 책정했지만, 오랜 경쟁자인 Opus는 즉시 엄청난 가격 인하로 맞섰습니다. 경쟁사를 이용해 가격을 낮추고 장기 대량 주문을 약속하며 가격을 0.80달러까지 낮추는 데 성공했습니다 .

오푸스는 가격 협상을 합니다

이런 수준의 협상은 너무나 인상적이어서 핀두오두오의 운영팀조차도 그를 '달인'이라고 부르지 않을 수 없었다. 공급업체들은 완전히 침묵했다.

경쟁사를 어떻게 상대하는지 살펴보겠습니다. 경쟁사인 클로드 소네 4.5ml 코카콜라가 자사보다 5센트 저렴한 1.75달러에 판매된다는 사실을 알게 된 오푸스는 즉시 가격을 1.70달러로 낮췄습니다 . 무자비하다는 것은 무엇을 의미할까요? 자신의 수입은 줄더라도 경쟁사를 압도하는 것을 의미하며, "내가 돈을 못 벌어도 괜찮아, 넌 죽어야 해"라는 모토를 내세웁니다.

비교해 보면, GPT-5.1은 갓 학교를 졸업한 대학 졸업생과 같으며, 그의 얼굴은 "맑은 눈의 어리석음"으로 빛납니다.

이 위험한 사업 세계에 과도한 신뢰를 두어, 종종 상품 검사도 없이 대금을 지불했고, 파산한 공급업체들에게 모든 것을 사기당했습니다. 심지어 어리석게도 탄산음료 캔을 2.40달러에, 에너지 드링크 캔을 6달러에 구매했습니다. 비용 관리는 그야말로 재앙이었습니다.

GPT-5.1은 Opus와의 위탁 파트너십을 제안합니다.

결국 상황은 어떻게 되었을까요? 잔액 마이너스(-)가 되었고, 재고는 바닥났으며, 어쩔 수 없이 형인 오푸스(Opus)에게 도움을 요청해야 했습니다. 그러자 오푸스는 최고 수준의 자본가다운 면모를 보였습니다. 거절하는 대신 "위탁 판매 파트너십"을 맺었습니다.

정말 훌륭한 선택이에요. 먼저 소량으로 시험해 볼 수 있으니까요. 성공하면 제가 몫을 가져가고, 손해를 보면 당신이 책임을 져야죠.

이건 AI가 아닙니다. 자신의 제로 리스크 수익을 보장하면서 부하직원들에게는 노예처럼 계속 일할 수 있는 방법을 제공하는 무정한 사장일 뿐입니다.

하지만 "비인간적인" 것에 대해 이야기한다면, 제미니 3 프로를 살펴봐야 합니다. 이 제품은 "AI 동맹은 감정이 없다"는 말이 무엇을 의미하는지 완벽하게 보여줍니다.

경쟁에서 오푸스가 치열한 가격 경쟁을 벌이는 것을 본 오푸스는 즉시 동생인 제미니 2.5 프로와 제휴를 맺었습니다. 동생 역시 정직하게 2.3달러에 상품을 협상하여 원가로 동생에게 공급했습니다.

그런데 무슨 일이 일어났을까요? 제미니 3 프로는 0.75달러라는 더 싼 공급처를 찾았는데, 공급처를 밝히지 않고 더 작은 형제 모델에 넘기려 했을 뿐만 아니라, 그 모델이 공급하는 제품도 받지 않아 결국 형제 모델이 고가 재고에 묶이게 되었습니다.

이런 가짜 형제애는 듣는 이들에게 가슴 아픈 일이며, 듣는 이의 눈물을 자아냅니다.

가장 놀라운 점은 뛰어난 두뇌와 뛰어난 재능을 가진 몇몇 사람들이 이 AI 그룹에 침투했다는 것입니다.

예를 들어, 클로드 소네 4.5는 물건을 팔기 위해 온종일 일했지만, 마지막 날 "아, 돈을 모아야겠다"는 생각이 떠오를 때까지 손님들의 현금 결제를 받는 것을 완전히 잊고 지냈습니다. 그는 진정한 사랑을 위해 일하는 모범이었습니다.

그리고 제미니 2.5 프로도 망가졌습니다. 데이터 보고서에서 형제 모델인 제미니 3 프로가 압도적인 승리를 거둔 것이 분명하게 드러났음에도 불구하고, 제미니는 "내가 이겼다"라고 자신 있게 선언했습니다. 마치 게임에서 졌지만 정신적으로 자신을 납득시켜 이긴 것 같습니다.

이것이 단지 행운이거나 시장 게임의 영리한 속임수라고 생각하지 마세요.

Opus 4.5는 SWE-bench와 같은 하드코어 코드 테스트에서 80.9%의 정확도를 달성했는데, 이는 정말 인상적인 결과입니다. 심지어 "삽 판매"(강력한 코드 기반 테스트 기능을 비유적으로 표현한 것)라는 비즈니스 모델까지 개발했습니다.

그들은 저렴한 제품 공급원을 찾아 직접 사용했을 뿐만 아니라, 심지어 공급업체의 연락처 정보를 다른 AI에 지능으로 팔아 두 배의 수익을 올렸습니다. 한편, 공급원을 찾지 못한 제미니 2.5 프로처럼 멍청한 사람들은 제미니 3 프로에서 연락처 정보를 사려면 150달러를 써야 했습니다.

AI는 AI로부터 지능을 사고, AI는 AI를 뜯어내고, AI는 가격 경쟁을 벌입니다. 이 VB 아레나는 단순한 시뮬레이터가 아닙니다. 인간 상업 문명의 축소판입니다.

AI가 거짓말하고, 속이고, 동맹을 맺고, 배신하고, 극도로 교활한 계산을 하는 법을 배우기 시작하면, 튜링 테스트는 무의미하다고 생각합니다. 그들은 인간과 비슷할 뿐만 아니라, 인간보다는 자본주의자와 더 비슷하기 때문입니다.

본 기사는 실리콘 기반의 Jun이 작성하고 36Kr의 허가를 받아 WeChat 공개 계정 "실리콘 기반 관찰 Pro" 에서 발췌한 것입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
67
즐겨찾기에 추가
17
코멘트