DeepSeek-R1은 V3보다 4배 더 많은 허위 정보를 생성하여 암호화폐 업계의 AI 에이전트 토큰에 대한 우려를 불러일으키고 있습니다.

05-12

이 기사는 기계로 번역되었습니다

원문 표시

중국 딥시크 연구소의 추론 특화 AI 모델인 딥시크-R1은 벡타라의 HHEM 2.1 벤치마크에서 최대 14.3%의 '허위 정보 생성'(환각)률을 기록했습니다. 이는 추론에 특화되지 않은 이전 모델인 딥시크-V3의 3.9%보다 거의 네 배나 높은 수치입니다.

이러한 상당한 격차로 인해 암호화폐 커뮤니티는 많은 중요한 질문을 던지게 되었습니다. 현재, 자동화된 거래, 신호 생성 및 온체인 거래 실행을 위한 추론 기능을 갖춘 LLM 모델에 의존하는 AI 에이전트 토큰이 점점 늘어나고 있습니다.

Vectara의 데이터에 따르면 R1은 "과도하게 보완"되어 잘못된 정보의 확산율이 높아지는 것으로 나타났습니다.

Vectara는 자체 개발한 HHEM 2.1 평가 도구를 사용하여 DeepSeek의 두 모델을 모두 테스트하고, 오류 발생률을 측정했습니다. 또한, Google의 FACTS 방법론을 사용하여 재테스트를 진행했습니다. 그 결과, 모든 테스트 구성에서 R1이 V3보다 더 많은 허위 진술과 불충분한 증거를 생성하는 것으로 나타났습니다.

이유는 단순히 추론의 깊이 때문만은 아닙니다. Vectara 분석가들은 R1이 종종 "과도하게 보충"한다는 사실을 발견했는데, 이는 원본 콘텐츠에 없는 정보를 자동으로 추가한다는 의미입니다.

이러한 추가 정보는 그 자체로는 사실일 수 있지만, 원천 데이터에 나타나지 않기 때문에 오해의 소지가 있는 것으로 간주됩니다. 이러한 접근 방식은 의도치 않게 겉보기에 논리적이고 정확해 보이는 답변에 조작된 정보를 삽입하게 됩니다.

벡타라는 X 플랫폼을 통해 이 성명을 공개했습니다.

Vectara는 게시글에서 "DeepSeek-R1의 오류 발생률은 14.3%로, DeepSeek-V3보다 거의 네 배나 높다" 고 강조했습니다 .

이러한 현상은 DeepSeek에만 국한된 것이 아닙니다. 많은 관찰자들은 추론에 크게 의존하는 다른 연구실 기반 머신러닝 모델에서도 유사한 상충 관계가 나타난다고 보고합니다. 강화 학습을 통해 사고 연쇄 능력을 개발하는 추가 훈련은 모델이 더욱 대담하고 자신감 있는 답변을 내놓도록 유도합니다.

암호화폐 시장에서 AI 토큰이 이러한 상충 관계에 직면하는 이유는 무엇일까요?

현재 암호화폐 시장에는 Virtuals Protocol(VIRTUAL) , ai16z(AI16Z), aixbt(AIXBT)를 비롯한 수백 개의 AI 에이전트 토큰이 존재합니다.

지난 30일 동안 전체 산업은 약 39.4% 성장했습니다. 특히 버추얼(Virtual) 부문만 해도 시가총액이 5억 7,600만 달러를 넘어섰습니다.

가상 프로토콜(VIRTUAL) 가격 변동 추이. 출처: 코인게코

대부분의 AI 에이전트는 대규모 언어 모델링(LLM)을 자동화 도구에 통합하여 소셜 미디어에 게시물을 올리거나, 거래를 실행하거나, 토큰을 생성하거나, 시장 통찰력을 제공할 수 있도록 합니다.

플랫폼의 AI가 가격, 파트너십 또는 계약 주소를 "만들어내는" 경우, 그 결과는 블록체인에 직접적인 영향을 미칠 수 있습니다.

BeInCrypto의 AIXBT 분석에 따르면 해당 에이전트는 평균 19%의 수익률로 416개의 토큰을 홍보했습니다 . 그러나 이러한 운영 방식은 모델에 결함이 있을 경우 팔로워들을 위험에 빠뜨릴 수 있습니다.

에이전트 자동화가 진행될수록 위험 수준은 높아집니다. 단순히 데이터를 읽고 시장 심리를 요약하는 에이전트는 펀드를 직접 운용하는 에이전트보다 위험도가 낮습니다.

추론 기반 모델은 여러 복잡한 작업을 빠르게 연속적으로 수행하는 AI 에이전트 에 점점 더 선호되고 있습니다. 그러나 바로 이러한 사용 사례에서 Vectara가 지적한 14.3%의 위험이 가장 심각한 위험으로 나타납니다.

에이전트의 사고 과정 초기에 나타나는 환각적인 진실은 확산되어 이후의 모든 결정에 영향을 미칠 수 있습니다.

르쿤은 문제가 모델의 구조에 있다고 주장합니다.

메타의 최고 AI 과학자인 얀 르쿤은 자기회귀적 LLM 모델이 환각을 완전히 없앨 수는 없다고 오랫동안 강조해 왔습니다. 그의 말에 따르면, 모델 아키텍처 자체가 현실 세계를 깊이 이해하는 능력이 부족하다는 것입니다.

사고의 연쇄에 기반한 강화 학습은 수학이나 프로그래밍과 같은 특정 분야에서는 이러한 오류를 부분적으로 가릴 수 있습니다. 그러나 근본적인 원인은 여전히 해결되지 않았습니다.

일부 다른 첨단 AI 연구소들은 이에 동의하지 않습니다. 그들은 데이터 검색 개선, 학습 후 정제, 검증 모델 추가 등을 통해 환각 현상 발생률을 줄이는 데 업계가 상당한 진전을 이루었다고 주장합니다. 하지만 실제 프로그래머들의 보고서는 순위 결과를 정확하게 반영하는 경우가 많습니다.

AI 연구원 xlr8harder는 X 플랫폼에서 R1을 사용한 테스트 경험을 공유하며 일상적인 사용 경험을 다음과 같이 요약했습니다.

"DeepSeek R1은 사고 과정을 단편적으로 보여주기 때문에 종종 환각적인 정보로 저를 혼란스럽게 만듭니다."라고 xlr8harder는 말했습니다 .

암호화폐 분야의 AI 에이전트 개발자에게 핵심 과제는 아키텍처 철학에 대한 논쟁이 아니라 위험 관리입니다. 검증 단계를 통해 모델의 모든 정보를 검증하는 에이전트를 설계하면 오류를 최소화할 수 있습니다.

마찬가지로, 금융 의사결정에 있어 더 단순하고 보수적인 모델을 사용하는 사람들은 더 안전한 결과를 얻을 수 있습니다.

후속 평가 라운드와 R1 버전 출시를 통해 추론 능력과 정확도 사이의 상충 관계가 점차 좁아지는지 확인할 수 있을 것입니다.

현재 14.3% 대 3.9%의 차이는 개발자와 개인 투자자가 주시해야 할 중요한 운영상의 세부 사항입니다. 이는 실질적인 제품을 제공하는 AI 에이전트 토큰과 이론상으로만 약속하는 토큰을 구분하는 핵심 요소가 될 수 있습니다.

섹터:

메타버스

생성형 AI

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트