중국 인공지능 연구소가 단순히 더 저렴한 AI 모델을 구축하는 것 이상의 일을 했습니다. 그들은 전 산업계의 접근 방식의 비효율성을 드러냈습니다.
DeepSeek의 돌파구는 작은 팀이 비용 절감을 위해 AI 모델 구축 방식을 재고할 수 있었음을 보여줍니다. OpenAI와 Anthropic과 같은 대기업들이 수십억 달러를 계산 능력에만 투자하는 동안, DeepSeek는 약 500만 달러로 유사한 결과를 달성했다고 합니다.
이 회사의 모델은 GPT-4o(OpenAI의 최고 LLM), OpenAI o1(현재 제공되는 최고의 추론 모델) 및 Anthropic의 Claude 3.5 Sonnet을 많은 벤치마크 테스트에서 동등하거나 능가하며, 전체 교육에 약 2.788M H800 GPU 시간을 사용했습니다. 이는 전통적으로 필요한 것으로 여겨졌던 하드웨어의 매우 작은 부분에 불과합니다.
이 모델은 매우 우수하고 효율적이어서 며칠 만에 애플 iOS 생산성 앱 카테고리 1위에 올랐으며, OpenAI의 지배력에 도전하고 있습니다.
필요성이 혁신의 어머니입니다. 이 팀은 미국 개발자들이 고려할 필요가 없었고 지금도 주도하지 않는 기술을 사용하여 이를 달성할 수 있었습니다. 가장 중요한 것은 전체 정밀도 대신 8비트 교육을 구현하여 메모리 요구 사항을 75% 줄였다는 점입니다.
Perplexity CEO Aravind Srinivas는 CNBC에 말했습니다. "그들은 적어도 일부 숫자에 대해 부동 소수점 8비트 교육을 해결했습니다. 제가 알기로는 부동 소수점 8비트 교육이 그렇게 잘 이해되지 않습니다. 미국의 대부분의 교육은 여전히 FP16으로 실행되고 있습니다."
FP8은 FP16에 비해 메모리 대역폭과 저장 공간이 절반입니다. 수십억 개의 매개변수를 가진 대규모 AI 모델의 경우 이러한 감소는 상당합니다. DeepSeek는 하드웨어가 약했기 때문에 이 기술을 숙달해야 했지만, OpenAI는 이러한 제약이 없었습니다.
DeepSeek는 또한 개별 단어가 아닌 전체 구문을 한 번에 처리하는 "멀티 토큰" 시스템을 개발했습니다. 이를 통해 90%의 정확도를 유지하면서 시스템 속도가 두 배 빨라졌습니다.
그들이 사용한 또 다른 기술은 "증류"라고 불리는 것으로, 더 큰 모델의 출력을 복제하여 동일한 지식 데이터베이스로 교육할 필요 없이 작은 모델을 출시할 수 있게 해줍니다. 이를 통해 극도로 효율적이고 정확하며 경쟁력 있는 작은 모델을 출시할 수 있었습니다.
이 회사는 또한 "전문가 혼합" 기술을 사용했는데, 이는 모델의 효율성을 높였습니다. 전통적인 모델은 모든 매개변수를 계속 활성화하지만, DeepSeek의 시스템은 총 671억 개의 매개변수를 사용하지만 한 번에 37억 개만 활성화합니다. 이는 전문가가 많은 팀을 가지고 있지만 특정 작업에 필요한 전문가만 호출하는 것과 같습니다.
DeepSeek는 논문에서 "DeepSeek-R1을 교사 모델로 사용하여 800K개의 교육 샘플을 생성하고, 여러 개의 작은 밀집 모델을 미세 조정했다"고 밝혔습니다. "그 결과 DeepSeek-R1-Distill-Qwen-1.5B가 AIME에서 28.9%, MATH에서 83.9%로 GPT-4o와 Claude-3.5-Sonnet을 능가했습니다."
참고로 15억 개의 매개변수는 LLM(대규모 언어 모델)이 아닌 SLM(소규모 언어 모델)로 간주됩니다. SLM은 계산과 vRAM 요구 사항이 매우 적어 스마트폰과 같은 약한 기기에서도 실행할 수 있습니다.
비용 영향은 엄청납니다. 교육 비용을 95% 줄인 것 외에도 DeepSeek의 API는 100만 토큰당 10센트만 청구하는 반면, 유사한 서비스는 4.40달러입니다. 한 개발자는 약 50센트로 200,000개의 API 요청을 처리했다고 보고했으며, 속도 제한도 없었습니다.
"DeepSeek 효과"는 이미 눈에 띄고 있습니다. 투자자 Chamath Palihapitiya는 "조용히 말하자면 AI 모델 구축은 돈 함정이다"라고 말했습니다. DeepSeek에 대한 비난에도 불구하고, OpenAI CEO Sam Altman은 사용자에게 돈을 더 뜯어내려는 노력을 급제동했습니다.
한편 DeepSeek 앱은 다운로드 차트 1위를 차지했고, Github의 상위 6개 트렌딩 리포지토리 중 3개가 DeepSeek 관련입니다.
대부분의 AI 주식이 하락하고 있는데, 이는 투자자들이 과장된 수준의 열풍인지 의문을 제기하고 있기 때문입니다. Nvidia, AMD와 같은 AI 하드웨어 및 Microsoft, Meta, Google과 같은 소프트웨어 주식들이 DeepSeek의 발표와 사용자 및 개발자들의 결과로 인한 명백한 패러다임 전환의 결과를 겪고 있습니다.
AI 암호화폐 토큰들도 타격을 받았습니다. 디젠들을 속이려는 DeepSeek AI 토큰 모방품들이 쏟아져 나왔습니다.
재정적 파괴 외에도 DeepSeek의 돌파구는 AI 개발이 거대 데이터 센터와 전문 하드웨어를 필요로 하지 않을 수 있다는 것을 시사합니다. 이는 경쟁 구도를 근본적으로 바꿀 수 있으며, 많은 사람들이 주요 기술 기업의 영구적인 장점으로 여겼던 것을 일시적인 리드로 전환시킬 수 있습니다.
타이밍은 거의 우스운 수준입니다. DeepSeek의 발표 직전에 트럼프 대통령, OpenAI의 Sam Altman, Oracle 창업자가 500억 달러 규모의 AI 인프라 투자 프로젝트 Stargate를 발표했습니다. 한편 Mark Zuckerberg는 Meta의 AI 개발에 수십억 달러를 투자하겠다고 밝혔고, Microsoft의 130억 달러 OpenAI 투자는 갑자기 전략적 천재성이 아니라 자원 낭비로 인한 FOMO로 보입니다.
Srinivas는 CNBC에 말했습니다. "그들이 따라잡지 못하게 하기 위해 무엇을 했든 상관없었습니다. 결국 그들은 따라잡았습니다."
편집: Andrew Hayward