중국 연구소 딥시크(DeepSeek)의 대표적인 추론 모델인 딥시크-R1은 벡타라(Vectara)의 HHEM 2.1 벤치마크에서 14.3%의 정확도를 기록했습니다. 이는 추론 기능이 없는 이전 모델인 딥시크-V3의 3.9%보다 거의 네 배나 높은 수치입니다.
이러한 격차는 암호화폐 업계에 어려운 질문을 제기합니다. 빠르게 성장하는 AI 에이전트 토큰들은 자율 거래, 신호 생성 및 온체인 실행을 위해 추론 방식의 LLM(Long-Term Module)에 의존하고 있습니다.
Vectara 데이터에 따르면 R1은 잘못된 정보로 '과도하게 도움을 주는' 것으로 나타났습니다.
Vectara는 자체 개발한 오류 평가 프레임워크인 HHEM 2.1을 사용하여 두 DeepSeek 모델을 모두 실행했습니다. 또한 Google의 FACTS 방법론을 사용하여 결과를 교차 검증했습니다. 모든 테스트 구성에서 R1은 V3보다 더 많은 거짓 또는 근거 없는 진술을 생성했습니다.
원인은 단순히 추론 깊이의 문제만은 아니었습니다. 벡타라의 분석가들은 R1이 "과도하게 도움을 주는" 경향이 있다는 것을 발견했습니다. 이 모델은 원문에 나타나지 않는 정보를 추가합니다.
그러한 추가 정보는 그 자체로 사실에 부합하더라도 환각으로 간주될 수 있습니다. 이러한 행위는 그렇지 않으면 타당한 답변에 조작된 맥락을 슬쩍 끼워 넣는 것입니다.
벡타라는 X에 올린 공개 게시물에서 해당 발견 사항을 직접 밝혔습니다.
"DeepSeek-R1은 14.3%의 오류 발생률을 보였는데, 이는 DeepSeek-V3보다 거의 4배 높은 수치입니다."라고 Vectrara는 자신의 게시글에서 언급했습니다 .
이러한 패턴은 DeepSeek에만 국한된 것이 아닙니다. 업계 분석가들은 다른 연구소의 추론 학습 모델에서도 동일한 상충 관계를 지적합니다. 사고의 흐름을 더욱 날카롭게 하는 강화 학습은 더 대담하고 자신감 있는 결과 생성을 장려합니다.
암호화폐 기반 AI 토큰이 이러한 상충 관계에 놓이는 이유는 무엇일까요?
현재 암호화폐 시장에는 Virtuals Protocol(VIRTUAL) , ai16z(AI16Z), aixbt(AIXBT)를 필두로 수백 개의 AI 에이전트 토큰이 존재합니다.
해당 카테고리는 최근 30일 동안 약 39.4%의 성장률을 기록했습니다. 가상현실 시장만 해도 시가총액이 5억 7,600만 달러를 넘어섰습니다.
Virtuals Protocol(VIRTUAL) 가격 대비 성능. 출처: Coingecko이러한 에이전트 대부분은 방대한 언어 모델을 도구로 감싸고 있습니다. 이 도구를 통해 에이전트는 소셜 미디어에 게시물을 올리고, 거래를 라우팅하고, 토큰을 민트(Mint) 하거나, 시장 분석을 생성할 수 있습니다.
기본 모델이 가격 수준, 파트너십 또는 계약 주소를 조작할 경우, 그 결과는 온체인에 반영될 수 있습니다.
비인크립토(BeInCrypto) 의 AIXBT 분석에 따르면 해당 에이전트는 평균 19%의 수익률로 416개의 토큰을 판매 했습니다. 그러나 동일한 표면적인 메커니즘은 모델이 실패할 경우 추종자들이 잘못된 판단을 내릴 위험에 노출시킵니다.
위험 수준은 자율성에 비례합니다. 감정을 요약하는 읽기 전용 에이전트는 트레져리 키를 보유하는 에이전트와 이해관계가 다릅니다.
추론 모델은 여러 단계를 거쳐 계획을 세우는 에이전트 에게 특히 매력적입니다. 바로 이러한 사용 사례에서 Vectara의 14.3%라는 수치가 가장 큰 타격을 줍니다.
사고 과정 초기에 형성된 하나의 잘못된 사실이 이후의 모든 행동에 영향을 미칠 수 있다.
르쿤은 문제가 건축적인 측면에 있다고 주장한다.
메타의 최고 AI 과학자인 얀 르쿤은 자기회귀형 LLM이 환상에서 완전히 벗어날 수 없다고 오랫동안 주장해 왔습니다. 그의 견해로는, 해당 아키텍처 자체에 세상에 대한 제대로 된 모델이 결여되어 있다는 것입니다.
사고 연쇄에 기반한 강화 학습은 수학이나 코딩과 같은 좁은 영역에서는 문제를 일시적으로 덮어버릴 수 있습니다. 하지만 근본적인 원인은 그대로 남아 있습니다.
다른 연구기관들은 이에 동의하지 않습니다. 그들은 검색 증강, 훈련 후 미세 조정, 검증 모델을 통해 벤치마크 오류율을 꾸준히 개선하고 있다고 지적합니다. 하지만 개발자들의 보고는 종종 순위표 데이터와 일치하는 경향이 있습니다.
AI 연구원 xlr8harder는 X에 R1과의 디버깅 세션에 대한 글을 쓰면서 일상적인 경험을 다음과 같이 요약했습니다.
"딥시크 R1은 사고 궤적에 대한 통합되지 않은 흥미로운 이해를 가지고 있습니다. … 그래서 기본적으로 환각을 통해 저를 가스라이팅합니다."라고 그들은 말했습니다 .
암호화 에이전트 개발자에게 실질적인 문제는 아키텍처 철학이 아니라 위험 관리입니다. 모든 모델 클레임을 검증 단계를 거치도록 설계하는 것이 더 나은 결과를 가져올 수 있습니다.
더 작고 보수적인 금융 거래 모델에 의존하는 에이전트에게도 마찬가지입니다.
다음 순위표 주기와 R1의 후속작들을 통해 추론 능력과 정확성 사이의 상충 관계가 좁혀지고 있는지 여부가 드러날 것입니다.
현재로서는 14.3%와 3.9% 사이의 격차는 주목할 만한 운영상의 세부 사항입니다. 이는 실제로 작동하는 제품을 출시하는 AI 에이전트 토큰과 출시를 약속하는 토큰을 구분하는 기준이 될 수 있습니다.


