DeepSeek부터 시작해서 DeepSeek은 왜 직장 경험이 없는 젊은 사람들을 선호합니까?

01-28

이 기사는 기계로 번역되었습니다

원문 표시

작가: Sam Gao, ElizaOS의 저자

0. 서문

최근 DeepSeek V3, R1의 연이은 등장으로 미국의 AI 연구원, 창업자, 투자자들이 포모(FOMO)에 빠지기 시작했습니다. 이 축제는 2022년 말 ChatGPT가 등장한 것만큼이나 놀라운 일이 될 수 있습니다.

DeepSeek R1의 완전한 오픈 소스(HuggingFace에서 무료로 모델을 다운로드하여 로컬에서 추론 가능)와 극저가(OpenAI o1의 1/100 가격)로 인해 DeepSeek는 단 5일 만에 미국 Apple AppStore 1위에 올랐습니다.

그렇다면 이 신비로운 중국 퀀트 회사에서 배출된 AI 신흥 세력은 어디에서 왔을까요?

1. DeepSeek의 기원

DeepSeek에 대해 처음 들었을 때는 2021년이었습니다. 당시 다모원에서 근무하던 중, 옆 팀의 천재 소녀 북경대 석사 로푸리가 퇴사하고 하이플라이어 퀀트에 합류했습니다. 당시 모두가 매우 궁금해했습니다. 돈을 많이 버는 퀀트 회사가 왜 AI 분야 인재를 채용할까요? 혹시 하이플라이어도 논문을 써야 할까요?

당시 제가 알기로는 하이플라이어가 채용한 AI 연구원들이 각자 다른 방향으로 탐색을 하고 있었는데, 그중 가장 핵심적인 방향은 대규모 언어 모델(LLM)과 텍스트-이미지 생성 모델(당시의 OpenAI Dall-e)이었습니다.

시간이 2022년 말로 흘러가면서, 하이플라이어는 점점 더 많은 톱클래스 AI 인재(주로 청화 출신 재학생)를 영입하기 시작했습니다. ChatGPT의 자극으로 AI 분야에서 오랜 경험을 쌓아온 하이플라이어 CEO 량문봉은 일반 인공지능 분야에 진출하기로 결심했습니다: "우리가 새 회사를 만들었는데, 언어 대규모 모델부터 시작해서 나중에는 시각 분야도 할 것입니다."

네, 이 회사가 바로 DeepSeek입니다. 2023년 초, 지도, 달의 이면, 백천 지능 등을 대표로 하는 6개 회사가 무대 중앙으로 부상하면서, 북경 중관촌과 오도구 사이에 있는 DeepSeek의 존재감이 상당 부분 이 열기 띄우는 회사들에 의해 가려졌습니다.

따라서 2023년, DeepSeek는 순수 연구 기관으로서 유명한 창업자가 없어(예: 이개복의 제로원만물, 양식린의 달의 이면, 왕소천의 백천 지능 등) 독자적으로 시장에서 자금을 조달하기 어려웠습니다. 그래서 하이플라이어는 DeepSeek를 분리하고 전액 지원하기로 했습니다. 2023년 이 격동의 시대에는 벤처 캐피털 회사들이 DeepSeek에 자금을 제공할 의사가 없었는데, 그 이유는 첫째, DeepSeek에는 막 졸업한 박사들이 대부분이어서 유명한 톱급 연구원이 없고, 둘째, 자금 회수 전망이 매우 불투명했기 때문입니다.

소음과 부산함이 가득한 환경 속에서 DeepSeek는 AI 탐구 여정의 이야기를 써 내려가기 시작했습니다:

2023년 11월, DeepSeek는 DeepSeek LLM을 출시했는데, 그 매개변수가 670억 개에 달하며 GPT-4에 근접한 성능을 보였습니다.
2024년 5월, DeepSeek-V2가 정식 출시되었습니다.
2024년 12월, DeepSeek-V3가 출시되었는데, 벤치마크 테스트 결과 Llama 3.1과 Qwen 2.5를 능가하고 GPT-4o와 Claude 3.5 Sonnet에 필적하는 성능을 보여, 업계의 관심을 불러일으켰습니다.
2025년 1월, 추론 능력을 갖춘 첫 번째 대규모 모델 DeepSeek-R1이 출시되었는데, OpenAI o1의 1/100도 되지 않는 가격과 탁월한 성능으로 전 세계 기술계를 경악시켰습니다: 세계가 진정으로 중국의 힘이 왔다는 것을 깨닫게 되었습니다... 오픈 소스가 영원히 승리한다!

2. 인재 전략

저는 일찍부터 DeepSeek의 일부 연구원들을 알고 있었는데, 주로 2024년 11월 발표된 Janus의 저자와 DreamCraft3D의 저자 등 AIGC 분야 연구원들이었습니다. 그중에는 제 최신 논문 최적화를 도와준 분도 있었습니다 @xingchaoliu.

제가 알아본 바로는 제가 알고 있는 연구원들은 대부분 매우 젊은 편으로, 대부분 박사과정 학생이거나 졸업 후 3년 이내의 인력들입니다.

이들 대부분은 북경 지역에서 석사 또는 박사 과정을 밟고 있는 학생들로, 학술적으로 매우 뛰어난 업적을 가지고 있습니다: 대부분 3-5편의 톱 학회 논문을 발표한 연구원들입니다.

저는 DeepSeek 친구들에게 왜 량문봉 대표가 젊은 인력만 채용하는지 물어봤습니다.

그들은 량문봉 하이플라이어 대표의 말을 전해주었는데, 그 원문은 다음과 같습니다:

DeepSeek 팀의 신비로운 면모로 인해 사람들의 호기심을 자아냅니다: 그들의 비밀 무기는 무엇일까요? 외신은 이 비밀 무기가 "젊은 천재"라고 말합니다. 그들은 재력 있는 미국 거대 기업들과 경쟁할 수 있습니다.

AI 업계에서는 경험 많은 베테랑을 고용하는 것이 일반적입니다. 많은 중국 AI 스타트업들은 경력 있는 연구원이나 해외 박사 학위 소지자를 선호합니다. 그러나 DeepSeek는 그 반대의 길을 가며, 경력이 없는 젊은이들을 선호합니다.

DeepSeek와 협력했던 헤드헌터 한 명은 DeepSeek가 경력 있는 기술 인력을 채용하지 않는다고 말했습니다. "경력이 3-5년인 것이 최대이고, 8년 이상 경력자는 기본적으로 탈락합니다." 2023년 5월 36Kr와의 인터뷰에서 량문봉 대표도 DeepSeek의 대부분의 개발자가 신입 졸업생이거나 인공지능 분야에 막 입문한 사람들이라고 말했습니다. 그는 "우리의 핵심 기술 직군은 대부분 신입 졸업생이나 1-2년 경력자가 담당하고 있습니다."

경력이 없는데 DeepSeek는 어떻게 사람을 뽑을까요? 답은 바로 잠재력을 보는 것입니다.

량문봉 대표는 "장기적인 일을 하는 데 있어서 경험은 그렇게 중요하지 않습니다. 기본 능력, 창의성, 열정 등이 더 중요합니다."라고 말했습니다. 그는 "지금 세계 순위 50위 안에 드는 최고의 AI 인재가 중국에 없을지도 모르지만, 우리가 직접 그런 인재를 만들어낼 수 있습니다."라고 생각합니다.

이 전략은 OpenAI의 초기 전략을 떠올리게 합니다. OpenAI는 2015년 말 설립 당시 Sam Altman의 핵심 구상이 젊고 야심 찬 연구원을 찾는 것이었습니다. 따라서 CEO Greg Brockman과 Chief Scientist Ilya Sutskever를 제외하고 나머지 4명의 핵심 창업 기술 팀 멤버(Andrew Karpathy, Durk Kingma, John Schulman, Wojciech Zaremba)는 모두 막 박사 학위를 받은 신입 연구원들이었는데, 각각 스탠퍼드, 암스테르담 대학, UC 버클리, NYU에서 졸업했습니다.

왼쪽부터: Ilya Sutskever(전 Chief Scientist), Greg Brockman(전 CEO), Andrej Karpathy(전 기술 책임자), Durk Kingma(전 연구원), John Schulman(전 강화학습 팀장), Wojciech Zaremba(현 기술 책임자)

이 "어린 늑대 전략"은 OpenAI에게 달콤한 열매를 맺게 했습니다. GPT의 아버지 Alec Radford(사립 3년제 졸업), 텍스트-이미지 모델 DALL-E의 아버지 Aditya Ramesh(NYU 학부생), 그리고 GPT-4o의 멀티모달 담당자이자 3회 올림피아드 금메달리스트 Prafulla Dhariwal 등을 배출했습니다. 이를 통해 설립 초기 구원의 계획이 불분명했던 OpenAI가 젊은이들의 돌진적인 행보 속에서 길을 열어 DeepMind 옆의 무명 소년에서 거물로 성장할 수 있었습니다.

량문봉 대표도 Sam Altman의 이 성공적인 전략을 보고 확신을 가지고 이 길을 선택했습니다. 다만 OpenAI가 7년을 기다려 ChatGPT를 보게 된 것과 달리, 량문봉의 투자는 2년 반 만에 성과를 거두었으니 이는 중국 속도라고 할 수 있습니다.

3. De
① 它所使用的专家混合 (MoE)技术，对训练要求高，对数据要求高，这表明了，大家质疑Deepseek使用OpenAI数据训练是有道理的。
② Deepseek使用强化学习 (RL)的强化学习技术，有对硬件要求很高，但相比Meta，OpenAI的万卡集群，Deepseek的训练只用了2048张H800。

由于算力的限制和MoE的复杂性，这让只用500万美元就一次成功的DeepSeek R1看着有些可疑，但是，无论你对R1的态度是顶礼膜拜其"低成本奇迹"，还是质疑其"华而不实"，都无法忽视其功能性创新的炫目。

BitMEX联合创始人Arthur Hayes发文表示: DeepSeek崛起是否会导致全球投资者质疑美国超卓主义？美国的资产价值是否被严重高估?

斯坦福大学教授吴恩达在今年的达沃斯论坛公开表示: "我对 DeepSeek 的进展印象深刻。我认为他们能够以非常经济的方式训练模型。他们最新发布的推理模型，非常出色……'加油'！"

A16z的创始人，Marc Andreessen表示，"Deepseek R1 是我见过的最令人惊叹、最令人印象深刻的突破之一——而且作为开源，它是给世界的一份深刻的礼物。"

2023年站在舞台角落的DeepSeek，终于在2025年，农历春节前，站上了世界AI之巅.

4.Argo和DeepSeek

作为Argo的技术开发者和AIGC研究者，我将Argo里面的重要功能进行了DeepSeek化: 作为一个工作流(workflow)系统，粗糙的原始工作流生成工作，Argo是用DeepSeek R1进行的。此外，Argo将LLM内置为标准的DeepSeek R1，并选择抛弃闭源昂贵的OpenAI模型，原因是Workflow系统通常包含大量的Token消耗和上下文信息(平均>=10k token)，这就导致了如果使用高价的OpenAI或Claude 3.5，Workflow的执行成本非常昂贵，在web3用户没有得到真正的价值捕获之前，这种提前透支的花销，是一种对产品的伤害。

随着DeepSeek越来越好，Argo会和DeepSeek为代表的中国力量进行更密切的合作: 包括不限于Text2Image/Video接口的中国化，LLM的中国化。

在合作方面，Argo将会在未来邀请DeepSeek的研究员分享技术成果，并为顶级AI研究员提供grants，为web3投资人和用户了解AI进展，提供助力。

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트

공유

관련 콘텐츠

하이퍼리퀴드는 리플과의 제휴 이후 시장 폭락에도 불구하고 투자 심리 위축에도 불구하고 상승세를 이어갔다.

Crypto Briefing

비트코인 채굴업체 칸고(Cango)가 인공지능(AI) 사업 전환을 지원하기 위해 3억 500만 달러 규모 비트코인(BTC) 매각을 완료했습니다.

Bitcoin Sistemi

바이낸스의 사용자 자산 보호 펀드인 SAFU가 또다시 비트코인을 매입했습니다! 이번 매입 금액은 다음과 같습니다.