최신 대규모 언어 모델(LLM)을 기반으로 구축된 이 시스템은 시장을 고속으로 분석하고, 스스로 거래 결정을 내리고, 궁극적으로 인간보다 더 나은 성과를 낼 수 있다고 주장합니다.
수십 개의 플랫폼이 AI 기반 거래 전략을 제공하는 가운데, CCN은 최근 실험 결과를 살펴보고 어떤 모델이 실제로 수익을 내는지 알아보았습니다.
Crypto AI 트레이딩 봇이란?
AI 암호화폐 거래 봇은 인간의 지시 없이 시장 데이터를 분석하고 거래를 실행하는 자동화된 시스템입니다.
기존의 트레이딩 봇은 고정된 규칙과 기술 지표에 의존하지만, LLM 기반의 차세대 트레이딩 봇은 복잡한 수치 데이터와 시장 움직임을 실시간으로 해석할 수 있습니다.
LLM이 성장함에 따라 헤지펀드, 개인 투자자, AI 플랫폼은 이러한 모델의 추론 능력이 지속 가능한 수익으로 이어질 수 있는지 테스트하고 있습니다.
알파 아레나: 어떤 AI 모델이 가장 좋은 성과를 낼까?
가장 야심찬 공개 실험 중 하나는 Nof1의 Alpha Arena에서 나왔습니다. 이는 상위 6명의 LLM에게 공개 시장에서 거래할 수 있는 10,000달러 상당의 실제 암호화폐 자본을 제공하는 라이브 테스트입니다.
11월 3일에 종료되는 시즌 1에는 6개의 AI 봇이 포함됩니다.
GPT-5
제미니 2.5 프로
클로드 소네 4.5
그록 4
딥시크 V3.1
큐웬3-맥스
이러한 AI 봇은 주요 암호화폐의 6가지 영구 계약을 거래합니다.
비트코인(BTC)
이더리움(ETH)
솔라나(SOL)
바이낸스 코인(BNB)
도지코인(DOGE)
리플
모든 모델은 동일한 데이터 세트와 동일한 프롬프트 구조를 받으며, 인간의 개입은 없습니다.
혼합된 결과
결과는 성능에 있어서 확실한 차이를 보여줍니다.
Qwen3-Max는 편안하게 1위를 차지했으며, 계정 가치가 약 12,287달러로 마감되었습니다.
DeepSeek V3.1은 약 10,476달러로 2위를 차지하며 꾸준한 성장세를 보이고 있습니다.

클로드 소넷 4.5와 그록 4는 중간 그룹에 속하며, 거래 시점에 따라 약간의 수익이나 소폭의 손실을 기록합니다.
Gemini 2.5 Pro와 GPT-5는 각각 약 5,226달러와 3,734달러의 손실을 기록하며 큰 손실을 입었습니다. 이는 초기 자본금보다 훨씬 낮은 수치입니다.
알파 아레나는 숫자 이면에 각 모델의 행동에서 명확한 차이가 있음을 지적합니다.
일부 모델은 롱 포지션을 선호하는 반면, 다른 모델은 숏 포지션을 더 자주 취합니다.
다양한 특성
봇은 주문 보류 시간, 주문 입력 빈도, 포지션 크기에 따른 위험 허용도 측면에서도 매우 다양합니다.
이전 테스트에서 Qwen3-Max는 지속적으로 가장 큰 포지션을 오픈한 반면, GPT-5는 때때로 더 나은 성과를 내는 그룹에 속했음에도 불구하고 종종 가장 낮은 신뢰 수준을 보고했습니다.
클로드 소네 4.5는 종종 짧은 기간 동안만 활동하지만, 그의 퇴장 계획은 고수한다.
각 모델마다 위험 관리 스타일이 다릅니다.
Grok 4와 DeepSeek V3.1은 손절매 범위를 넓게 설정하여 계좌 변동성을 높이는 경우가 많습니다. 반면, Qwen3-Max는 매우 좁은 손절매 범위와 명확한 목표가를 사용합니다.
왜 초기 승자는 그렇게 중요하지 않은가
해당 팀은 단일 테스트 실행으로는 모델의 거래 잠재력을 완벽하게 평가할 수 없다고 강조했습니다.
"목표는 한 시즌을 기준으로 어떤 거래 모델이 '최고'인지 영원히 선언하는 것이 아닙니다."라고 팀은 밝혔습니다. "시즌 1의 한계를 잘 알고 있습니다."라고 덧붙였습니다.
그럼에도 불구하고, 초기 결과는 몇 가지 흥미로운 징후를 보여줍니다. Qwen3-Max는 놀라운 규율을 보여주는 반면, DeepSeek V3.1은 안정적인 의사 결정 스타일을 보였습니다.
반면, 클로드 소네 4.5와 GPT-5처럼 활발하게 거래되거나 거래 빈도가 높은 모델은 평균 수준의 성과를 보였습니다.





