작가: Sam Gao, ElizaOS의 저자
0. 서문
최근 DeepSeek V3, R1의 연이은 등장으로 미국의 AI 연구원, 창업자, 투자자들이 포모(FOMO)에 빠지기 시작했습니다. 이 축제는 2022년 말 ChatGPT가 등장한 것만큼이나 놀라운 일이 될 수 있습니다.

DeepSeek R1의 완전한 오픈 소스(HuggingFace에서 무료로 모델을 다운로드하여 로컬에서 추론 가능)와 극저가(OpenAI o1의 1/100 가격)로 인해 DeepSeek는 단 5일 만에 미국 Apple AppStore 1위에 올랐습니다.

그렇다면 이 신비로운 중국 퀀트 회사에서 배출된 AI 신흥 세력은 어디에서 왔을까요?
1. DeepSeek의 기원
DeepSeek에 대해 처음 들었을 때는 2021년이었습니다. 당시 다모원에서 근무하던 중, 옆 팀의 천재 소녀 북경대 석사 로푸리가 퇴사하고 하이플라이어 퀀트에 합류했습니다. 당시 모두가 매우 궁금해했습니다. 돈을 많이 버는 퀀트 회사가 왜 AI 분야 인재를 채용할까요? 혹시 하이플라이어도 논문을 써야 할까요?

당시 제가 알기로는 하이플라이어가 채용한 AI 연구원들이 각자 다른 방향으로 탐색을 하고 있었는데, 그중 가장 핵심적인 방향은 대규모 언어 모델(LLM)과 텍스트-이미지 생성 모델(당시의 OpenAI Dall-e)이었습니다.
시간이 2022년 말로 흘러가면서, 하이플라이어는 점점 더 많은 톱클래스 AI 인재(주로 청화 출신 재학생)를 영입하기 시작했습니다. ChatGPT의 자극으로 AI 분야에서 오랜 경험을 쌓아온 하이플라이어 CEO 량문봉은 일반 인공지능 분야에 진출하기로 결심했습니다: "우리가 새 회사를 만들었는데, 언어 대규모 모델부터 시작해서 나중에는 시각 분야도 할 것입니다."
네, 이 회사가 바로 DeepSeek입니다. 2023년 초, 지도, 달의 이면, 백천 지능 등을 대표로 하는 6개 회사가 무대 중앙으로 부상하면서, 북경 중관촌과 오도구 사이에 있는 DeepSeek의 존재감이 상당 부분 이 열기 띄우는 회사들에 의해 가려졌습니다.
따라서 2023년, DeepSeek는 순수 연구 기관으로서 유명한 창업자가 없어(예: 이개복의 제로원만물, 양식린의 달의 이면, 왕소천의 백천 지능 등) 독자적으로 시장에서 자금을 조달하기 어려웠습니다. 그래서 하이플라이어는 DeepSeek를 분리하고 전액 지원하기로 했습니다. 2023년 이 격동의 시대에는 벤처 캐피털 회사들이 DeepSeek에 자금을 제공할 의사가 없었는데, 그 이유는 첫째, DeepSeek에는 막 졸업한 박사들이 대부분이어서 유명한 톱급 연구원이 없고, 둘째, 자금 회수 전망이 매우 불투명했기 때문입니다.
소음과 부산함이 가득한 환경 속에서 DeepSeek는 AI 탐구 여정의 이야기를 써 내려가기 시작했습니다:
2023년 11월, DeepSeek는 DeepSeek LLM을 출시했는데, 그 매개변수가 670억 개에 달하며 GPT-4에 근접한 성능을 보였습니다.
2024년 5월, DeepSeek-V2가 정식 출시되었습니다.
2024년 12월, DeepSeek-V3가 출시되었는데, 벤치마크 테스트 결과 Llama 3.1과 Qwen 2.5를 능가하고 GPT-4o와 Claude 3.5 Sonnet에 필적하는 성능을 보여, 업계의 관심을 불러일으켰습니다.
2025년 1월, 추론 능력을 갖춘 첫 번째 대규모 모델 DeepSeek-R1이 출시되었는데, OpenAI o1의 1/100도 되지 않는 가격과 탁월한 성능으로 전 세계 기술계를 경악시켰습니다: 세계가 진정으로 중국의 힘이 왔다는 것을 깨닫게 되었습니다... 오픈 소스가 영원히 승리한다!
2. 인재 전략
저는 일찍부터 DeepSeek의 일부 연구원들을 알고 있었는데, 주로 2024년 11월 발표된 Janus의 저자와 DreamCraft3D의 저자 등 AIGC 분야 연구원들이었습니다. 그중에는 제 최신 논문 최적화를 도와준 분도 있었습니다 @xingchaoliu.

제가 알아본 바로는 제가 알고 있는 연구원들은 대부분 매우 젊은 편으로, 대부분 박사과정 학생이거나 졸업 후 3년 이내의 인력들입니다.


이들 대부분은 북경 지역에서 석사 또는 박사 과정을 밟고 있는 학생들로, 학술적으로 매우 뛰어난 업적을 가지고 있습니다: 대부분 3-5편의 톱 학회 논문을 발표한 연구원들입니다.
저는 DeepSeek 친구들에게 왜 량문봉 대표가 젊은 인력만 채용하는지 물어봤습니다.
그들은 량문봉 하이플라이어 대표의 말을 전해주었는데, 그 원문은 다음과 같습니다:
DeepSeek 팀의 신비로운 면모로 인해 사람들의 호기심을 자아냅니다: 그들의 비밀 무기는 무엇일까요? 외신은 이 비밀 무기가 "젊은 천재"라고 말합니다. 그들은 재력 있는 미국 거대 기업들과 경쟁할 수 있습니다.
AI 업계에서는 경험 많은 베테랑을 고용하는 것이 일반적입니다. 많은 중국 AI 스타트업들은 경력 있는 연구원이나 해외 박사 학위 소지자를 선호합니다. 그러나 DeepSeek는 그 반대의 길을 가며, 경력이 없는 젊은이들을 선호합니다.
DeepSeek와 협력했던 헤드헌터 한 명은 DeepSeek가 경력 있는 기술 인력을 채용하지 않는다고 말했습니다. "경력이 3-5년인 것이 최대이고, 8년 이상 경력자는 기본적으로 탈락합니다." 2023년 5월 36Kr와의 인터뷰에서 량문봉 대표도 DeepSeek의 대부분의 개발자가 신입 졸업생이거나 인공지능 분야에 막 입문한 사람들이라고 말했습니다. 그는 "우리의 핵심 기술 직군은 대부분 신입 졸업생이나 1-2년 경력자가 담당하고 있습니다."
경력이 없는데 DeepSeek는 어떻게 사람을 뽑을까요? 답은 바로 잠재력을 보는 것입니다.
량문봉 대표는 "장기적인 일을 하는 데 있어서 경험은 그렇게 중요하지 않습니다. 기본 능력, 창의성, 열정 등이 더 중요합니다."라고 말했습니다. 그는 "지금 세계 순위 50위 안에 드는 최고의 AI 인재가 중국에 없을지도 모르지만, 우리가 직접 그런 인재를 만들어낼 수 있습니다."라고 생각합니다.
이 전략은 OpenAI의 초기 전략을 떠올리게 합니다. OpenAI는 2015년 말 설립 당시 Sam Altman의 핵심 구상이 젊고 야심 찬 연구원을 찾는 것이었습니다. 따라서 CEO Greg Brockman과 Chief Scientist Ilya Sutskever를 제외하고 나머지 4명의 핵심 창업 기술 팀 멤버(Andrew Karpathy, Durk Kingma, John Schulman, Wojciech Zaremba)는 모두 막 박사 학위를 받은 신입 연구원들이었는데, 각각 스탠퍼드, 암스테르담 대학, UC 버클리, NYU에서 졸업했습니다.

왼쪽부터: Ilya Sutskever(전 Chief Scientist), Greg Brockman(전 CEO), Andrej Karpathy(전 기술 책임자), Durk Kingma(전 연구원), John Schulman(전 강화학습 팀장), Wojciech Zaremba(현 기술 책임자)
이 "어린 늑대 전략"은 OpenAI에게 달콤한 열매를 맺게 했습니다. GPT의 아버지 Alec Radford(사립 3년제 졸업), 텍스트-이미지 모델 DALL-E의 아버지 Aditya Ramesh(NYU 학부생), 그리고 GPT-4o의 멀티모달 담당자이자 3회 올림피아드 금메달리스트 Prafulla Dhariwal 등을 배출했습니다. 이를 통해 설립 초기 구원의 계획이 불분명했던 OpenAI가 젊은이들의 돌진적인 행보 속에서 길을 열어 DeepMind 옆의 무명 소년에서 거물로 성장할 수 있었습니다.
량문봉 대표도 Sam Altman의 이 성공적인 전략을 보고 확신을 가지고 이 길을 선택했습니다. 다만 OpenAI가 7년을 기다려 ChatGPT를 보게 된 것과 달리, 량문봉의 투자는 2년 반 만에 성과를 거두었으니 이는 중국 속도라고 할 수 있습니다.
3. De
① 它所使用的专家混合 (MoE)技术,对训练要求高,对数据要求高,这表明了,大家质疑Deepseek使用OpenAI数据训练是有道理的。
② Deepseek使用强化学习 (RL)的强化学习技术,有对硬件要求很高,但相比Meta,OpenAI的万卡集群,Deepseek的训练只用了2048张H800。
由于算力的限制和MoE的复杂性,这让只用500万美元就一次成功的DeepSeek R1看着有些可疑,但是,无论你对R1的态度是顶礼膜拜其"低成本奇迹",还是质疑其"华而不实",都无法忽视其功能性创新的炫目。
BitMEX联合创始人Arthur Hayes发文表示: DeepSeek崛起是否会导致全球投资者质疑美国超卓主义?美国的资产价值是否被严重高估?
斯坦福大学教授吴恩达在今年的达沃斯论坛公开表示: "我对 DeepSeek 的进展印象深刻。我认为他们能够以非常经济的方式训练模型。他们最新发布的推理模型,非常出色……'加油'!"
A16z的创始人,Marc Andreessen表示,"Deepseek R1 是我见过的最令人惊叹、最令人印象深刻的突破之一——而且作为开源,它是给世界的一份深刻的礼物。"

2023年站在舞台角落的DeepSeek,终于在2025年,农历春节前,站上了世界AI之巅.
4.Argo和DeepSeek
作为Argo的技术开发者和AIGC研究者,我将Argo里面的重要功能进行了DeepSeek化: 作为一个工作流(workflow)系统,粗糙的原始工作流生成工作,Argo是用DeepSeek R1进行的。此外,Argo将LLM内置为标准的DeepSeek R1,并选择抛弃闭源昂贵的OpenAI模型,原因是Workflow系统通常包含大量的Token消耗和上下文信息(平均>=10k token),这就导致了如果使用高价的OpenAI或Claude 3.5,Workflow的执行成本非常昂贵,在web3用户没有得到真正的价值捕获之前,这种提前透支的花销,是一种对产品的伤害。
随着DeepSeek越来越好,Argo会和DeepSeek为代表的中国力量进行更密切的合作: 包括不限于Text2Image/Video接口的中国化,LLM的中国化。
在合作方面,Argo将会在未来邀请DeepSeek的研究员分享技术成果,并为顶级AI研究员提供grants,为web3投资人和用户了解AI进展,提供助力。




