첫 번째 AI 거래 대회가 마무리되었습니다. 6명의 AI 코인 거래 2주 동안 참여했습니다. Qwen과 DeepSeek은 수익을 냈고, GPT-5는 6,000달러의 막대한 손실을 입었습니다.

이 기사는 기계로 번역되었습니다
원문 표시

2주간의 치열한 경쟁 끝에, 첫 번째 nof1 AI 모델 트레이딩 경연대회가 마침내 마무리되었습니다.

이는 AI 투자 역량을 측정하기 위해 특별히 고안된 최초의 벤치마크 테스트로, "코인업계 의 튜링 테스트"로 불립니다. 미국 인공지능 연구소 Nof1.ai가 2025년 10월 17일에 공식 출시했으며, 11월 3일까지 진행됩니다.

참여 모델은 DeepSeek Chat V3.1(DeepSeek), Grok 4(xAI), Gemini 2.5 Pro(Google), GPT-5(OpenAI), Qwen3 Max(Alibaba), Claude Sonnet 4.5(Anthropic) 등 6개입니다.

이 모델들은 중국과 미국의 클로즈드 소스 및 오픈 소스 공급업체 모두의 최신 기술 발전을 반영합니다. Qwen3-Max를 제외한 모든 모델은 구성 가능한 최고 수준의 추론 설정으로 구성되었으며, 작업별 조정 없이도 즉시 사용 가능한 성능을 보고합니다.

각 주요 모델은 초기 자금 1만 달러를 확보하고, 동일한 시장 데이터와 기술 지표를 사용하며, Hyperliquid에서 인적 개입 없이 암호화폐 무기한 계약을 자율적으로 거래합니다. 궁극적으로 최고의 투자 수익률을 달성하는 모델이 평가됩니다.

그들은 운영 공간을 매수(롱(Long)), 매도(숏(Short)), 보유 또는 포지션 청산으로 제한했습니다. Hyperliquid에서 거래 가능한 암호화폐 범위는 BTC, ETH, SOL, BNB, DOGE, XRP의 6가지 인기 암호화폐로 제한되었습니다. 암호화폐 자산을 선택한 세 가지 실질적인 이유는 다음과 같습니다. 시장은 연중무휴 24시간 운영되어 영업 시간뿐만 아니라 지속적으로 의사 결정을 관찰할 수 있습니다. 데이터가 풍부하고 쉽게 이용할 수 있어 분석 및 투명한 감사 지원합니다. Hyperliquid는 빠르고 안정적이며 쉽게 통합할 수 있습니다. Hyperliquid와 암호화폐는 글로벌하며 특정 국가나 회사에 대한 의존도가 낮습니다. 이러한 모델은 마이크로초 수준이 아닌 분에서 시간 단위의 의사 결정 간격을 갖는 저빈도~중빈도(MLFT) 거래를 수행합니다.

대회 규정에 따라 모든 거래 내역, 포지션, 결정 내역 및 계좌 잔액 변동 사항은 실시간으로 공개됩니다. 시청자는 Nof1.ai 플랫폼을 통해 동적 차트를 확인할 수 있어 높은 수준의 투명성을 보장합니다.

경쟁 결과가 나왔고, 국내에서 생산된 두 대형 모델이 눈부신 경쟁을 펼쳤습니다.

Qwen3 Max는 수익률 22.3%, 승률 30.2%, 총 손익 $2,232, 총 거래 횟수 43회로 1위를 차지했습니다. DeepSeek Chat V3.1은 수익률 4.89%, 승률 24.4%, 총 손익 $489.08, 총 거래 횟수 41회로 2위를 차지했습니다.

나머지 모델은 모두 상당한 손실을 입었습니다. Claude Sonnet 4.5는 30.81%, Grok 4는 45.3%, Gemini 2.5 Pro는 56.71%, GPT 5는 62.66%를 잃었습니다.

이 대회는 출시 이후 폭넓은 관심을 모았으며, 바이낸스 창립자 자오창펑 (CZ) 도 공개적으로 의견을 밝혔습니다.

그는 전통적으로 거래 전략은 독창성에 의존하며, 이상적으로는 다른 사람들이 갖지 못한 전략을 통해 우위를 점한다고 생각합니다. 만약 모든 사람이 동일한 AI 모델을 사용하여 거래한다면, 모두가 동시에 매수 또는 매도하게 되어 시장 동태 영향을 미칠 수 있습니다.

그러나 충분한 수의 사람들이 동일한 AI 모델을 사용한다면, 해당 모델의 구매력이 시장 수요 자체를 통해 가격을 끌어올릴 수도 있습니다.

그는 또한 AI 거래 성과에 대한 관심이 높아짐에 따라 앞으로 더 많은 사람들이 거래에 AI를 적용하는 방법을 연구하기 시작할 것이며, 거래량이 크게 증가할 것으로 예상했습니다.

6가지 거래 모델은 각각 고유한 "개성"을 가지고 있습니다.

공개된 "성적표"는 이 6가지 모델이 서로 다른 거래 "성격"을 가지고 있음을 보여줍니다.

Qwen3 Max는 일반적으로 "공격적"으로 평가되며, 22.32%의 수익률과 $2,232의 총 손익을 자랑합니다. 높은 수수료($1,654)로 인해 거래 빈도가 중간 수준이고 포지션 큰 편임에도 불구하고, Qwen3 Max는 30.2%의 승률과 $8,176의 최대 수익을 기록하며 "리스크 고수익"의 공격적 거래 전략을 보여줍니다. 샤프지수 0.273은 안정적인 리스크 조정 수익률을 입증합니다.

DeepSeek Chat V3.1은 4.89%의 수익률과 $489의 총 손익을 달성하며 탄탄한 성과로 2위를 차지했습니다. 비교적 낮은 거래 수수료($690)는 거래 건수는 적지만 효율성은 높다는 것을 보여줍니다. 승률은 24.4%였지만 최대 수익은 $7,378에 달하여 합리적이고 탄탄한 전략적 특성을 보여주었습니다. 샤프 지수 0.359는 모든 모델 중 가장 높았으며, 이는 탁월한 리스크 관리 역량을 보여줍니다.

클로드 소네 4.5는 -30.81%의 수익률과 $3,081의 총 손실로 다소 저조한 성과를 보였습니다. 낮은 거래 빈도(36건)와 25%에 불과한 승률은 신중한 전략을 반영하지만, 최대 수익 $2,112와 최대 손실 $1,579는 개별 거래에서 비교적 적은 변동성을 보여줍니다. 샤프 지수 -0.057은 수익률의 상당한 변동성과 불충분한 리스크 관리 수준을 나타냅니다.

Grok 4는 -45.3%의 수익률과 $4,530의 총 손실로 4위를 차지했습니다. 거래 빈도는 47회, 샤프 지수는 -0.118, 최대 수익은 $1,356, 최대 손실은 $657로, 보수적인 접근 방식과 주요 시장 동향을 포착하는 데 어려움을 나타냅니다.

제미니 2.5 프로는 -56.71%의 수익률과 5,671달러의 총 손실을 기록하며 경쟁 모델에서 부진한 성적을 기록했습니다. 238건의 거래는 모든 모델 중 가장 많았는데, 이는 과도한 거래량을 시사하지만, 승률은 25.6%에 불과했고 샤프 지수는 -0.566으로 과도한 거래와 비효율적인 수익률을 나타냈습니다. 이 모델은 안정적인 전략이 부족한 전형적인 "고빈도 트레이더"와 유사합니다.

GPT-5는 -62.66%의 수익률과 $6,266의 총 손실로 최악의 성과를 기록했습니다. 거래 건수는 비교적 많았지만(116건), 수익률은 매우 낮았습니다. 승률은 26.7%, 샤프 지수는 -0.525로, 상당한 변동성과 상당한 손실을 나타냈습니다. 최대 이익은 $270에 불과했고, 최대 손실은 $621로, 효과적인 시장 판단력과 리스크 관리가 부족함을 보여줍니다.

전반적으로 중국의 Qwen3 Max와 DeepSeek은 리스크 관리와 추세 식별 측면에서 더 앞서 있는 반면, GPT-5, Claude, Grok, Gemini와 같은 미국 모델은 일반적으로 상당한 손실을 입습니다.

참조 링크:

https://nof1.ai/리더보드

https://nof1.ai/blog/TechPost1

본 기사는 AI 분야에 관심이 있는 사람이 작성하고 36Kr의 승인을 받아 게시한 WeChat 공개 계정 "Machine Heart"(ID: almosthuman2014) 의 기사입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트