출처: 양자호
금융계는 약 1개월 후에야 DeepSeek에 대한 공포를 느끼기 시작했지만, 이런 공포가 실제로 나타났을 때 엔비디아의 시총은 5000억 달러(약 3.6조 원) 이상 줄어들었는데, 이는 전체 별의 문과 맞먹는 규모입니다. 엔비디아뿐만 아니라 테슬라, 구글, 아마존, 마이크로소프트의 시총도 하락했습니다.
Scale AI의 CEO 알렉산더 왕에 따르면, DeepSeek가 연달아 발표한 두 개의 인공지능 모델은 미국 실험실의 최고 모델과 견줄 수 있다고 합니다. 또한 DeepSeek는 제한된 조건에서 작동하는 것으로 보이는데, 이는 훈련 비용이 미국 동료들보다 훨씬 낮다는 것을 의미합니다. 최근 모델의 최종 훈련 비용이 560만 달러(약 4060만 원)에 불과했다고 합니다. 이는 미국 인공지능 전문가의 연봉과 비슷한 수준입니다. 지난해 Anthropic의 CEO 다리오 아모데이는 모델 훈련 비용이 1억 달러(약 7.25억 원)에서 10억 달러(약 72.51억 원) 사이라고 밝혔습니다. OpenAI의 CEO 샘 오트먼에 따르면 GPT-4의 비용은 1억 달러(약 7.25억 원)를 넘었다고 합니다. DeepSeek는 우리가 인공지능 비용에 대해 가지고 있던 관념을 뒤엎었고, 업계 전체에 큰 영향을 미칠 수 있습니다.
이 모든 일이 몇 주 만에 일어났습니다. 크리스마스 당일 DeepSeek는 추론 모델(v3)을 발표했고, 이는 큰 관심을 끌었습니다. 지난주 발표된 두 번째 모델 R1은 벤처 투자가이자 트럼프 대통령 고문인 마크 앤더슨이 "내가 본 가장 놀랍고 인상 깊은 돌파구 중 하나"라고 평했습니다. 트럼프의 인공지능 및 암호화폐 전문가 데이비드 섹스는 DeepSeek 모델의 진보가 "인공지능 경쟁이 매우 치열할 것"이라는 것을 보여준다고 말했습니다. 이 두 모델은 훈련 데이터를 제외하고는 부분적으로 오픈소스입니다.
DeepSeek의 성공은 수십억 달러의 계산 능력이 과연 인공지능 경쟁에서 승리하는 데 필요한지에 대한 의문을 제기합니다. 기존 관점에 따르면 대형 기술 기업이 인공지능 분야를 주도할 것이라고 생각했는데, 이는 이들이 발전을 추구할 여유 자금이 있기 때문입니다. 하지만 지금은 대형 기술 기업들이 단순히 돈을 태우고 있는 것으로 보입니다. 이 모델들의 실제 비용을 계산하는 것은 조금 까다로운데, Scale AI의 왕이 지적했듯이 제재로 인해 DeepSeek가 자신이 보유한 GPU의 정확한 수를 밝힐 수 없기 때문입니다.
Hugging Face 연구 책임자 레오나르도 폰 빌라는 비판자들이 옳다고 해도 DeepSeek가 자신이 보유한 GPU 수를 정확히 밝히지 않았다(냅킨 수학에 따르면 그들은 최적화 기술을 사용했다는 것을 의미하므로, 그들이 말한 것이 사실일 가능성이 높다)고 말했습니다. 그의 팀은 지난 주말부터 R1 레시피를 복제하고 오픈소스화하기 시작했으며, 연구원들이 자체 모델 버전을 만들면 "숫자의 정확성을 빨리 알 수 있을 것"이라고 말했습니다.
DeepSeek란 무엇인가?
DeepSeek는 2년 전에 설립되었으며, CEO 량원봉이 이끌고 있는 중국 최고의 인공지능 스타트업입니다. 이 회사는 浙江大学의 엔지니어가 설립한 헤지펀드에서 분사되었으며, "게임의 법칙을 바꿀 수 있는 아키텍처와 알고리즘 혁신"에 주력하여 일반 인공지능(AGI)을 구축하는 것을 목표로 하고 있습니다. OpenAI와 달리 이 회사는 이미 수익을 내고 있다고 주장합니다.
2021년 량은 미국의 칩 제재 직전에 수천 개의 엔비디아 GPU를 구매하기 시작했고, 2023년에 DeepSeek를 출시했습니다. 그 목표는 "일반 인공지능의 본질을 탐구"하는 것, 즉 인간과 같은 지능을 가진 인공지능을 만드는 것입니다. OpenAI의 CEO 오트먼과 다른 업계 리더들과 마찬가지로, 량도 많은 이야기를 합니다. "우리의 목표는 일반 인공지능입니다. 이를 위해서는 제한된 자원으로 더 강력한 모델 능력을 실현할 수 있는 새로운 모델 구조를 연구해야 합니다."라고 그는 말했습니다.
DeepSeek는 바로 이렇게 하고 있습니다. 이 팀은 일부 혁신적인 기술적 접근법을 사용하여 모델이 더 효율적으로 실행될 수 있도록 했으며, R1의 최종 훈련 실행 비용이 560만 달러(약 4060억 원)라고 주장합니다. 이는 OpenAI의 o1보다 95% 낮습니다. DeepSeek는 처음부터 새로 만든 것이 아니라 기존의 오픈소스 모델을 기반으로 구축했는데, 구체적으로는 Meta의 Llama 모델을 사용했습니다. 회사가 훈련 데이터 조합을 공개하지 않았지만, DeepSeek는 합성 데이터 또는 인공적으로 생성된 정보를 사용했다고 언급했습니다(인공지능 실험실이 데이터 병목 현상에 직면하면서 이 부분이 더 중요해질 수 있습니다).
훈련 데이터 없이는 이것이 o1의 "복제"인지 정도를 알 수 없습니다. DeepSeek가 R1 훈련에 o1을 사용했는지 여부. 12월 첫 논문 발표 당시 오트먼은 "효과적인 것을 알고 있는 것을 복제하는 것(상대적으로) 쉽다"고 썼지만, "효과적인지 알 수 없는 상황에서 새로운, 위험한, 어려운 일을 하는 것은 극도로 어렵다"고 말했습니다. 따라서 DeepSeek의 주장은 새로운 선두 모델을 만들지 않고 단순히 오래된 모델을 복제했다는 것입니다. OpenAI 투자자 조슈아 쿠슈너는 DeepSeek가 "실리콘밸리 선두 최첨단 모델을 기반으로 훈련되었다"고 말한 것으로 보입니다.
OpenAI의 전 정책 연구원 마일즈 브렌데이지는 R1이 두 가지 핵심적인 최적화 기술을 사용했다고 말했습니다: 더 효율적인 사전 훈련과 사고 체인 강화 학습. DeepSeek는 더 저렴한 GPU를 사용하여 인공지능을 훈련시키는 더 현명한 방법을 찾았는데, 그 중 일부는 인공지능이 시행착오를 거쳐 단계적으로 "사고"하도록 요구하는 새로운 기술을 사용하는 것입니다. 이 조합을 통해 모델은 더 적은 계산 능력과 자금으로 o1 수준의 능력을 달성할 수 있었습니다.
"DeepSeek v3와 이전의 DeepSeek v2는 기본적으로 GPT-4와 동일한 모델이지만, GPU 측면에서 더 많은 수익을 얻기 위해 더 교묘한 엔지니어링 기술을 사용했다"고 브렌데이지는 말했습니다.
다른 실험실도 이러한 기술을 사용했다는 점을 주목할 필요가 있습니다(DeepSeek는 "전문가 혼합" 기술을 사용하여 특정 쿼리에 대해서만 모델의 일부 기능을 활성화했습니다. GPT-4도 이 방법을 사용했습니다). DeepSeek 버전은 더 세분화된 전문가 범주를 만들고 더 효율적인 소통 방식을 개발함으로써 이 개념을 혁신했고, 이를 통해 훈련 과정 자체가 더 효율적이 되었습니다. DeepSeek 팀은 또한 DeepSeekMLA(다중 잠재 의식)라는 기술을 개발했는데, 이는 모델이 정보를 저장하고 검색하는 방식을 압축하여 인공지능 모델을 실행하는 데 필요한 메모리를 크게 줄였습니다.
세계를 충격에 빠뜨린 것은 단순히 이 모델의 아키텍처가 아니라, 일반적으로 인공지능의 중대한 진보 사이에 1년 이상의 시간이 걸리는 것과 달리 몇 개월 만에 OpenAI의 성과를 복제할 수 있었다는 점입니다. 브렌데이지는 덧붙였습니다.
OpenAI는 자신을 선진 인공지능 구축에 있어 독보적인 능력을 가진 기업으로 포지셔닝했고, 이 이미지는 투자자들의 지원을 받아 세계 최대 규모의 인공지능 데이터 센터 인프라를 구축하는 데 도움이 되었습니다. 그러나 DeepSeek의 빠른 복제는 기술 우위가 오래 지속되지 않을 것임을 보여줍니다 - 심지어 회사가 자신의 방법을 비밀로 하려고 노력하더라도 말입니다.
"어떤 면에서 이러한 폐쇄형 기업들은 분명 사람들이 자신들이 가장 위대한 일을 하고 있다고 믿게 만듦으로써 생존하고 있습니다. 이것이 그들이 평가를 유지하는 방법입니다. 아마도 그들은 더 많은 자금을 모으거나 더 많은 프로젝트를 만들기 위해 약간 과장했을 수도 있습니다," 폰 빌라는 말했습니다. "그들이 내부 역량을 과장했는지 여부는 알 수 없지만, 이것이 분명 그들에게 유리하게 작용했습니다."
돈 이야기
2022년 OpenAI가 ChatGPT를 출시한 이후 투자계는 인공지능에 대한 환상을 가지고 있습니다. 문제는 우리가 인공지능 버블 속에 있는지 여부
옵티미즘(OP)은 영향력 있는 상장 기업 중 하나로, 인공지능 기업들이 사용하는 복잡한 칩을 생산하고 있다. 사람들은 인공지능 열풍 속에서 옵티미즘(OP) 주식을 구매하는 것이 곧 제조업체에 투자하는 것이라고 생각한다. Ronin(RON)의 성공은 옵티미즘(OP) 주가 상승을 이끌었던 투자 이론을 뒤엎었다. 만약 Ronin(RON)이 더 효율적으로 칩을 사용한다면, 다른 기업들도 이를 따라할 것이다. 이는 옵티미즘(OP)의 최첨단 칩 시장 규모가 축소될 수 있음을 의미한다. 온톨로지가스(ONG), 트론(TRON), 불장(Bull market), 관점, 리스크, 시총, 대폭상승, 대량, 상장, 분할 등의 용어도 적절히 번역되었다.