DeepSeek이 계속해서 인기를 얻을 수 있을까요?

avatar
PANews
01-27
이 기사는 기계로 번역되었습니다
원문 표시

작가: 유연, 펑파이 뉴스 기자

· 대규모 모델 분야에서 고급 기술 인재를 발굴하는 헤드헌터가 펑파이 기술에 말하길, DeepSeek의 인재 채용 논리는 다른 대규모 모델 분야 회사들과 크게 다르지 않다고 한다. 인재에 대한 핵심 라벨은 '젊고 잠재력 있는'이며, 1998년생 정도의 나이, 5년 이내의 경력이 가장 이상적이라고 한다. "똑똑하고, 이공계이며, 젊고, 경험이 적다."

· 업계 관계자들의 견해로는, 국내 다른 대규모 모델 스타트업들과 비교해 DeepSeek는 운이 좋다. 투자 압박이 없어 투자자들에게 증명할 필요가 없고, 모델의 기술 반복과 제품 응용 최적화를 동시에 고려할 필요가 없다. 그러나 상업 회사로서 막대한 투자 이후에는 다른 모델 회사들이 직면하는 압박과 도전에 직면할 수밖에 없을 것이다.

2024년 중국 대규모 모델 분야에서 가장 뜨거운 곳은 어디일까? 항저우 딥씨크 인공지능 기초기술 연구 유한공사(이하 DeepSeek)가 확실한 경쟁자일 것이다. 작년 중반 대규모 모델 가격 전쟁의 주도자로 대중의 시야에 들어온 DeepSeek는, 연말연초에 오픈소스 모델 DeepSeek-V3와 추론 모델 DeepSeek-R1을 연이어 공개하면서 대규모 모델 분야의 논의를 완전히 불붙였다. 사람들은 한편으로는 DeepSeek-V3의 저렴한 학습 비용(557.6만 달러 정도라고 함)에 놀라워하고, 다른 한편으로는 모델 오픈소스화와 기술 보고서 공개에 박수를 보냈다. DeepSeek-R1의 공개로 많은 과학자, 개발자, 사용자들이 들뜨기도 했는데, 심지어 DeepSeek가 OpenAI의 GPT-3 같은 강력한 추론 모델의 경쟁자가 될 수 있다고 생각했다.

이 저조한 회사가 어떻게 저렴한 학습 비용으로 성능 좋은 대규모 모델을 만들어낼 수 있었을까? 그들의 현재 인기는 무엇을 잘했기 때문일까? 앞으로 이 회사가 '모델 분야'에서 계속 힘차게 나아가기 위해서는 어떤 도전에 직면할까?

알고리즘 혁신으로 연산 비용 대폭 감소

"DeepSeek는 일찍 투자했고 축적도 많아서 알고리즘 면에서 자신만의 특색이 있습니다." 국내 유명 대규모 모델 스타트업 고위 관계자는 DeepSeek가 주목받는 핵심 우위는 알고리즘 혁신에 있다고 말했다. "중국 기업들은 연산 능력이 부족해서 연산 비용 절감에 더 신경 쓰게 됩니다."

DeepSeek가 공개한 DeepSeek-R1 정보에 따르면, 후 학습 단계(Post-Training)에서 강화 학습(Reinforcement learning) 기술을 대규모로 사용했다. 극소량의 레이블 데이터로도 모델 추론 능력을 크게 향상시켰다. 수학, 코드, 자연어 추론 등 과제에서 OpenAI의 GPT-3 정식 버전과 견줄 만한 성능을 보였다.

DeepSeek가 계속 인기를 끌 수 있을까?

DeepSeek-R1 API 가격

DeepSeek 창립자 량문봉은 여러 차례 DeepSeek는 차별화된 기술 경로를 개척하고자 하며 OpenAI의 모델을 복제하지 않을 것이라고 강조했다. DeepSeek는 더 효과적인 방법으로 모델을 학습시켜야 한다.

"그들은 일련의 엔지니어링 기술을 사용해 모델 구조를 최적화했습니다. 예를 들어 모델 혼합 방법을 혁신적으로 사용하는 등, 본질적으로는 공학화를 통해 비용을 낮추어 수익성을 확보하려는 것입니다." 오랫동안 기술 업계에 종사해온 베테랑이 펑파이 기술에 말했다.

DeepSeek가 공개한 정보에 따르면, MLA(Multi-head Latent Attention) 다중 헤드 잠재 주의 메커니즘과 자체 개발한 DeepSeekMOE(Mixture-of-Experts 혼합 전문가 모델) 구조 면에서 큰 진전을 이뤘다. 이 두 가지 기술 설계는 학습 계산 자원을 줄여 DeepSeek 모델의 비용 효율성을 높이고 학습 효율성도 향상시켰다. 연구기관 Epoch AI의 데이터에 따르면 DeepSeek의 최신 모델은 매우 효율적이다.

데이터 측면에서, OpenAI의 '대량 데이터 투입' 방식과 달리 DeepSeek는 알고리즘으로 데이터를 요약 및 분류하고 선별적으로 처리한 후 대규모 모델에 입력함으로써 학습 효율을 높이고 DeepSeek의 비용을 낮췄다. DeepSeek-V3의 등장으로 고성능과 저비용의 균형을 이뤘고, 대규모 모델 발전에 새로운 가능성을 제시했다.

"앞으로는 거대 GPU 클러스터가 필요 없을지도 모릅니다." DeepSeek의 고성능-저비용 모델 공개 후 OpenAI 창립 멤버 Andrej Karpathy가 말했다.

청화대학교 컴퓨터과학부 정교수 류지원은 펑파이 기술에 DeepSeek의 부상이 우리의 경쟁 우위를 입증한다고 말했다. 제한된 자원을 극대화하여 활용함으로써 열세를 극복했다. R1 공개는 우리와 미국의 AI 실력 격차가 뚜렷이 좁혀졌음을 보여준다. 《이코노미스트》 최신호에서도 "DeepSeek의 저비용 학습과 모델 설계 혁신이 기술 산업을 바꾸고 있다"고 보도했다.

현 구글 딥마인드 CEO 겸 공동창립자 데미스 하사비스는 DeepSeek의 학습 데이터와 오픈소스 모델 활용 정도가 서방 시스템에 어느 정도 의존하는지 완전히 파악하지 못했지만, 이 팀의 성과는 인상적이라고 인정했다. 한편으로는 중국의 강력한 엔지니어링 능력과 규모화 능력을 인정하면서, 다른 한편으로는 서방이 여전히 선도적이며 최첨단 모델의 우위를 지키는 방법을 고려해야 한다고 지적했다.

오랜 집중으로 이룬 결실

DeepSeek의 혁신은 하루아침에 이루어진 것이 아니라, 수년간의 '인큐베이팅' 끝에 나온 결과다. 량문봉은 선두 퀀트 헤지펀드 환방 퀀트의 창립자이기도 하다. DeepSeek는 환방 퀀트가 축적한 자금, 데이터, GPU 카드를 충분히 활용한 것으로 알려졌다.

량문봉은 浙江大学에서 학부와 석사 학위를 취득했다. 2008년부터 팀을 이끌며 기계 학습 등 기술로 완전 자동화 퀀트 거래를 탐구했다. 2015년 환방 퀀트를 설립했고, 이듬해 첫 AI 모델을 출시했다. 2018년 AI를 주력 발전 방향으로 정했다. 2020년 환방은 1억 위안 이상을 투자해 농구장 크기의 AI 슈퍼컴퓨터 '형화일호'를 가동했는데, 이는 4만 대 개인용 컴퓨터에 필적하는 초강력 연산 능력을 갖췄다고 한다. 2021년 환방은 10억 위안을 투자해 '형화이호'를 건설했는데, "1만 장의 A100 GPU 칩을 장착했다"고 한다. 당시 국내에서 1만 개 이상의 GPU를 보유한 기업은 5개 미만이었고, 환방 퀀트 외에는 모두 인터넷 대기업이었다.

2023년 7월 DeepSeek가 공식 출범해 범용 AI 분야에 진출했고, 지금까지 외부 투자를 받지 않았다.

"카드가 상대적으로 충분해서 투자 압박이 없었고, 처음 몇 년은 모델만 만들고 제품은 하지 않아서 DeepSeek가 다른 국내 대규모 모델 기업들에 비해 더 순수하고 집중할 수 있었습니다. 그래서 엔지니어링 기술과 알고리즘 면에서 돌파구를 찾을 수 있었죠." 앞서 언급한 국내 대규모 모델 기업 고위 관계자가 말했다.

또한 대규모 모델 업계가 점점 폐쇄적으로 변하면서 OpenAI가 'CloseAI'로 불리는 가운데, DeepSeek의 모델 오픈소스화와 기술 보고서 공개 행보는 개발자들의 많은 호평을 받아 국내외 대규모 모델 시장에서 기술 브랜드를 빠르게 구축할 수 있었다.

연구원들은 DeepSeek의 개방성이 매우 대단하다고 펑파이 기술에 말했다. V3와 R1 모델의 오픈소스화로 시장의 오픈소스 모델 기준을 높였다.

젊은이들의 힘을 증명한 성공

"DeepSeek의 성공은 젊은이들의 힘을 보여줬습니다. 본질적으로 이 세대의 AI 발전은 젊은 두뇌가 더 필요합니다." 한 모델 기업 관계자가 펑파이 기술에 말했다.

이전에 OpenAI의 전 정책 책임자이자 Anthropic 공동창립자 Jack Clark은 DeepSeek가 "신비로운 천재들의 무리"를 고용했다고 생각했다. 이에 대해 량문봉은 자신의 인터뷰에서 신비로운 천재는 없고, 모두 국내 최고 대학 졸업생, 박사 4·5년차 인턴, 그리고 몇 년 경력의 젊은이들이라고 밝혔다.

지금까지 공개된 보도를 보면 DeepSeek 팀의 가장 큰 특징은 명문대 출신, 젊다는 것이다. 팀 리더급도 35세 미만이다. 140명 남짓한 팀에서 엔지니어와 연

有负责大模型领域挖掘高端科技人才的猎头告诉澎湃科技,DeepSeek的用人逻辑和大模型领域其他公司的用人逻辑并无太大差异,对人才的核心标签都是"年轻高潜",即年龄在1998年出生左右,工作经验最好不要超过五年,"聪明、理工科、年轻、经验少。"

不过,前述猎头也表示,大模型创业公司本质还是一家创业公司,并非不想招到海外顶尖AI人才,而现实环境是,海外顶尖AI人才愿意回来的不多。

一位不愿透露姓名的DeepSeek员工向澎湃科技透露,公司管理很扁平化,自由交流的氛围比较好。梁文峰平日行踪不定,大多数时间大家和他都是线上交流。

该员工此前曾在国内大厂做大模型技术研发,但感觉自己在大厂更像一颗螺丝钉,无法创造价值,最终选择加入DeepSeek。在他看来,DeepSeek目前更专注底层模型技术。

DeepSeek的工作氛围完全自下而上,自然分工,每个人对于卡和人的调动都不设上限,"自带想法,不需要Push。在探索过程中,他遇到问题,自己就会拉人讨论。"梁文峰此前在接受采访时称。

"认为中国AI已经超越美国还为时过早"

美国商业媒体Business Insider分析认为,新发布的R1表明,中国可以与业内一些顶尖的人工智能模型相媲美,并与美国硅谷前沿发展保持同步;其次,开源如此先进的人工智能也可能对那些试图通过出售技术来获取巨额利润的公司构成挑战。

不过,现在就高呼"中国 AI 已经超越美国"或许还为时过早。刘知远公开表示,需要警惕舆论从极度悲观转向极度乐观,觉得我们已经全面超越、遥遥领先了,"远远没有"。刘知远认为,当前AGI新技术还在加速演进,未来发展路径还不明确,中国仍在追赶的阶段,虽然已经不是望尘莫及,但也只能说尚可望其项背,"在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。"

"现在太卷了,大家都太着急了,没有意识到DeepSeek最后跑出来了。"接近DeepSeek的人向澎湃科技感慨,行业变化的速度太快,无法预测下一步能做什么,只能看下一个Q3季度的变化。

德米斯·哈萨比斯一方面认可中国拥有非常强大的工程能力和规模化能力,另一方面,他也指出,西方仍然领先,并且需要考虑如何保持西方前沿模型的领先地位。

虽然此前梁文峰对外表示,DeepSeek只做模型不做产品。但是作为一家商业化公司,几乎不可能一直只做模型不做产品。1月15日,DeepSeek官方App正式发布。接近DeepSeek的人士向澎湃科技表示,商业化已经被DeepSeek提上日程。

在业内人士看来,和国内其他大模型创业公司相比DeepSeek是幸运的,没有融资压力,不需要向投资人证明,不需要兼顾模型的技术迭代和产品应用的优化。但作为一家商业公司,巨资投入后,或早或晚都要面临目前其他模型公司面临的压力和挑战。"这次出圈为DeepSeek在商业化前夕做了一次成功的营销,但未来真正商业化后,需要接受市场的检验,能否继续破浪前行尚难定论。"上述模型公司人士表示。

可以确定的是,DeepSeek未来将要面临更多的压力和挑战,通往通用模型的竞赛现在才刚刚拉开序幕,谁能赢下去还取决于持续投入的资金和技术的迭代。但业内人士也都认为,"对于国内模型行业来说,有像DeepSeek这样具备真正技术实力的公司加入,是件好事。"

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트