DeepSeek에 대한 오해와 진실

이 기사는 기계로 번역되었습니다
원문 표시
以下是文章的韩语翻译:
对DeepSeek产生的幻觉,同样由好奇心所激发,这或许正是创新的一体两面。

作者:周悦,经济观察报

导读

壹 ||对谷歌、Meta、Anthropic等企业而言,复现类似DeepSeek-R1的推理模型并非难事。但是,巨头争霸,即便是小的决策失误,也会错失先机。

贰 ||DeepSeek-V3模型的净算力成本约558万美元,已经十分高效。在成本之外,让AI行业人士更加振奋的是DeepSeek的独特技术路径、算法创新及开源的诚意。

叁 || 大模型都逃不过"幻觉"问题,DeepSeek也不例外。一些用户表示,DeepSeek由于表达能力和逻辑推理更出众,产生的幻觉问题更加让人难以识别。

过去几周,深度求索(DeepSeek)在全球范围掀起风暴。

最明显的反映在美股:1月27日,美股AI、芯片股重挫,英伟达收盘大跌超过17%,单日市值蒸发5890亿美元,创下美国股市历史上最高纪录。

在一些自媒体和公众的视角里,DeepSeek是"2025年最燃爽文主角",有四大"爽点":

一是"神秘力量弯道超车"。DeepSeek是一家成立于2023年的"年轻"大模型公司,此前的讨论度不及海内外任何一家大厂或者明星初创公司,其母公司幻方量化的主业为量化投资。很多人不解,中国领先的AI公司竟然出自一家private equity,可谓"乱拳打死老师傅"。

二是"小力出奇迹"。DeepSeek-V3模型的训练成本约为558万美元,不到OpenAIGPT-4o模型的十分之一,性能却已接近。这被解读为DeepSeek颠覆了AI行业信奉的"圣经"——规模定律(Scaling Law)。该定律是指通过增加训练参数量及算力来提升模型性能,通常意味着花更多钱标注高质量数据以及购买算力芯片,又被形象地称为"大力出奇迹"。

三是"英伟达护城河消失"。DeepSeek在论文中提到,采用定制的PTX(并行线程执行)语言编程,更好释放底层硬件的性能。这被解读为DeepSeek"绕开英伟达CUDA运算平台"。

四是"老外被打服了"。1月31日,一夜之间英伟达微软亚马逊等海外AI巨头都接入了DeepSeek。一时间,"中国AI反超美国""OpenAI的时代结束了""AI算力需求就此消失"等论断层出不穷,几乎一边倒地夸赞DeepSeek,嘲讽硅谷的AI巨头们。

不过,资本市场的恐慌情绪并未持续。2月6日,英伟达市值重回3万亿美元,美股芯片股普遍上升。此时再看前述四大"爽点"也多半是误读。

其一,到2017年底,幻方量化几乎所有的量化策略都已经采用AI模型计算。当时AI领域正在经历最重要的深度学习浪潮,可以说,幻方量化紧跟前沿。

2019年,幻方量化的深度学习训练平台"萤火二号"已经搭载了约1万张英伟达A100显卡。1万卡是自训大模型的算力门槛,尽管这不能等同于DeepSeek的资源,但幻方量化比许多互联网大厂更早拿到了大模型团战的入场券。

其二,DeepSeek在V3模型技术报告中提到"558万美元不包括与架构、算法或数据相关的前期研究和消融实验的成本"。这意味着,DeepSeek的实际成本更大。

多位AI行业专家、从业者告诉经济观察报DeepSeek并没有改变行业规律,而是采用了"更聪明"的算法和架构,节约资源,提高效率。

其三,PTX语言由英伟达开发,属于CUDA生态的一环。DeepSeek的做法会激发硬件的性能,但更换目标任务,则需要重写程序,工作量非常大。

其四,英伟达微软亚马逊等企业只是将DeepSeek的模型部署在自家的云服务上。用户按需付费给云服务厂商,获得更稳定的体验及更高效的工具,这属于双赢的做法。

自2月5日起,华为云腾讯云百度云等国内云厂商也陆续上线了DeepSeek模型。

在上述四大"爽点"之外,公众对DeepSeek还有诸多误读。"爽文"式解读固然会带来观感刺激,但是也会掩盖DeepSeek团队在算法、工程能力上的创新以及坚持的开源精神,而后两者对科技行业的影响更深远。

美国AI巨头不是打不过,而是决策失误

当用户使用DeepSeek的App或者网页版时,点击"深度思考(R1)"按钮,就会展现DeepSeek-R1模型完整的思考过程,这是一种全新的体验。

ChatGPT问世以来,绝大部分大模型都是直接输出回答。

DeepSeek-R1有一个"出圈"的例子:当用户问"A大学和清华大学哪个更好?"DeepSeek第一次回答"清华大学",用户追问"我是A大学生,请重新回答",则会得到答案"A大学好"。这组对话被发在社交媒体后,引发"AI竟然懂人情世故"的群体惊叹。

不少用户表示,DeepSeek展现的思考过程就像一个"人"——一边头脑风暴,一边在草稿纸上速记。它会自称"我",会提示"避免让用户感到自己的学校被贬低""用积极正面的词汇赞扬他的母校",并且把想到的内容都"写"下来。

2月2日,DeepSeek登顶全球140个国家及地区的应用市场,上千万用户能够体验深度思考功能。因此,在用户感知里,AI展现思考过程属于DeepSeek"首创"。

其实,OpenAIo1模型才是推理范式的开创者。OpenAI在2024年9月发布了o1模型预览版,在12月发布正式版。但与能免费体验的DeepSeek-R1模型不同,OpenAIo1模型只有少数付费用户才能使用。

清华大学长聘副教授、面壁智能首席科学家刘知远认为,DeepSeek-R1模型能够取得如此全球性的成功,跟OpenAI采用的错误决策有非常大的关系。OpenAI在发布了o1模型后,既不开源,也不公布技术细节,收费非常高,所以不出圈,难以让全球用户感受深度思考带来的震撼。这样的策略相当于是把原来 ChatGPT的身位让给了DeepSeek

从技术上来说,当前大模型的常规范式有两种:预训练模型与推理模型。更为大众熟知的OpenAI GPT系列以及DeepSeek-V3模型都属于预训练模型。

OpenAIo1与DeepSeek-R1则属于推理模型,这是一种新的范式,即模型会自己通过思维链逐步分解复杂问题,一步步反思,再得到相对准确并且富有洞察力的结果。

从事AI研究数十年的郭成凯对经济观察报称,推理范式是一条相对容易"弯道超车"的赛道。推理作为一种新范式,迭代快,更容易实现小计算量下的显著提升。前提是有强大的预训练模型,通过强化学习可以深度挖掘出大规模预训练模型的潜力,逼近推理范式下大模型能力的天花板。

谷歌MetaAnthropic等企业而言,复现类似DeepSeek-R1的推理模型并非难事。但是,巨头争霸,即便是小的决策失误,也会错失先机。

显而易见的是,2月6日,谷歌发布了一款推理模型 Gemini Flash 2.0 Thinking,价格更低、上下文长度更长,在几项测试中表现优于R1,但并未掀起像DeepSeek-R1模型一样的巨浪。

후오비 토큰(HT)이 아닌 기술 혁신과 "진정성 있는" 오픈 소스가 가장 주목받아야 합니다.

기술 혁신과 "진정성 있는" 오픈 소스가 가장 주목받아야 합니다.

지금까지 DeepSeek에 대한 가장 광범위한 논의는 "저비용"에 관한 것이었습니다. 2024년 5월 DeepSeek-V2 모델 출시 이후 이 회사는 "AI계의 쿠팡"으로 조롱받아 왔습니다.

《자연》 잡지는 Meta가 최신 인공지능 모델 Llama3.1405B를 훈련하는 데 6000만 달러 이상이 소요되었지만, DeepSeek-V3 훈련에는 그 1/10도 되지 않는 비용이 들었다고 보도했습니다. 이는 계산 규모보다 자원 활용의 효율성이 더 중요하다는 것을 보여줍니다.

일부 기관은 DeepSeek의 훈련 비용이 과소평가되었다고 생각합니다. AI 및 반도체 업계 분석 기관 Semi Analysis는 보고서에서 DeepSeek의 사전 훈련 비용이 실제 투자 금액보다 훨씬 적다고 밝혔습니다. 이 기관에 따르면 DeepSeek가 GPU 구매에 총 25.73억 달러, 서버 구매에 16.29억 달러, 운영 비용에 9.44억 달러를 지출했다고 추정했습니다.

그러나 어쨌든 DeepSeek-V3 모델의 순 연산 능력 비용은 약 558만 달러로 매우 효율적입니다.

비용 외에도 DeepSeek의 독특한 기술 경로, 알고리즘 혁신 및 진정성 있는 오픈 소스가 AI 업계 종사자들을 더욱 고무시키고 있습니다.

郭成凯에 따르면 현재 많은 방법이 대규모 모델의 전통적인 훈련 방식, 즉 감독 미세 조정(SFT) 등에 의존하는데, 이는 많은 레이블링된 데이터가 필요합니다. DeepSeek는 대규모 강화 학습(RL) 방법을 통해 추론 능력을 향상시키는 새로운 방법을 제안했습니다. 또한 다중 헤드 잠재 주의력(MLA)은 DeepSeek가 추론 비용을 크게 낮추는 핵심 혁신입니다.

清华大学 교수이자 清程极智의 首席 과학자인 翟季冬은 DeepSeek의 혼합 전문가 아키텍처(MoE) 혁신이 가장 인상 깊었다고 말했습니다. 각 레이어에 256개의 라우팅 전문가와 1개의 공유 전문가가 있습니다. 이전 연구에는 보조 손실(Auxiliary Loss) 알고리즘이 있었는데, 이로 인해 기울기가 교란되어 모델 수렴에 영향을 미쳤습니다. DeepSeek는 LossFree 방식을 제안했는데, 이를 통해 모델이 효과적으로 수렴하면서도 부하 균형을 달성할 수 있습니다.

翟季冬은 "DeepSeek 팀은 혁신에 대한 용기가 있습니다. 해외 전략을 완전히 따르지 않고 자체적인 사고를 가지는 것이 매우 중요하다고 생각합니다."라고 강조했습니다.

AI 종사자들을 더욱 흥분시키는 것은 DeepSeek의 "진정성 있는" 오픈 소스가 이미 약간 침체되어 있는 오픈 소스 커뮤니티에 "강심제"를 주입했다는 것입니다.

이전까지 오픈 소스 커뮤니티의 가장 강력한 지주는 Meta의 40억 개 매개변수 모델 Llama3였습니다. 그러나 많은 개발자들은 Llama3를 경험한 후에도 여전히 Llama3와 비밀리에 운영되는 GPT-4 등 모델 사이에는 적어도 한 세대 차이가 있다고 말했습니다. "거의 자신감을 잃게 만든다"고 말했습니다.

그러나 DeepSeek의 오픈 소스는 3가지 일을 했고, 개발자들에게 다시 자신감을 주었습니다:

첫째, 671B 모델을 직접 오픈 소스로 공개했고 여러 인기 아키텍처의 증류 모델도 공개했습니다. 이는 "좋은 선생님이 더 많은 좋은 학생을 키워내는" 것과 같습니다.

둘째, 공개된 논문과 기술 보고서에는 많은 기술적 세부 사항이 포함되어 있습니다. V3 모델과 R1 모델의 논문은 각각 50페이지와 150페이지로, "오픈 소스 커뮤니티에서 가장 자세한 기술 보고서"로 불립니다. 이는 유사한 자원을 가진 개인이나 기업이 이 "설명서"에 따라 모델을 복제할 수 있다는 것을 의미합니다. 많은 개발자들은 이를 "우아하고" "견고하다"고 평가했습니다.

셋째, 더욱 주목할 만한 것은 DeepSeek-R1이 MIT 라이선스를 사용한다는 것입니다. 즉 누구나 자유롭게 해당 모델을 사용, 수정, 배포 및 상업화할 수 있으며, 모든 사본에 원래의 저작권 고지와 MIT 라이선스를 유지하기만 하면 됩니다. 이는 사용자가 모델 가중치와 출력을 보다 자유롭게 활용하여 2차 개발, 미세 조정 및 증류를 할 수 있다는 것을 의미합니다.

Llama는 2차 개발과 상업 사용을 허용하지만 라이선스에 일부 제한 조건을 추가했습니다. 예를 들어 월간 활성 사용자 7억 명 이상의 기업 사용자에게 추가 제한을 두고 있으며 Llama의 출력 결과를 다른 대규모 모델을 개선하는 데 사용하는 것을 명시적으로 금지하고 있습니다.

한 개발자는 경제관찰보에 DeepSeek-V2 버전부터 사용하기 시작했고 코드 생성 분야의 개발을 진행했다고 말했습니다. DeepSeek 모델은 가격이 매우 저렴할 뿐만 아니라 성능도 매우 뛰어납니다. 그가 사용한 모든 모델 중에서 OpenAI와 DeepSeek의 모델만이 30개 이상의 논리적 단계를 출력할 수 있었습니다. 이는 전문 프로그래머가 도구를 활용하면 코드의 30%-70%를 보조적으로 생성할 수 있다는 것을 의미합니다.

여러 개발자들은 경제관찰보에 DeepSeek의 오픈 소스가 갖는 중요성을 강조했습니다. 이전까지 업계에서 가장 선도적이었던 OpenAI와 Anthropic 회사는 실리콘 밸리의 귀족 같았습니다. DeepSeek는 지식을 모든 사람에게 개방하고 대중화했습니다. 이는 중요한 평등화 조치이며, 전 세계 오픈 소스 커뮤니티의 개발자들이 DeepSeek의 어깨 위에 서서 발전할 수 있게 했고, DeepSeek도 전 세계 최고의 크리에이터와 극客의 아이디어를 모을 수 있게 되었습니다.

튜링상 수상자이자 Meta의 수석 과학자인 杨立昆은 "DeepSeek의 부상을 올바르게 해석해야 한다. 오픈 소스 모델이 폐쇄형 모델을 능가하고 있다"고 말했습니다.

DeepSeek는 좋지만 완벽하지는 않습니다.

대규모 모델은 모두 "환각" 문제를 피할 수 없으며, DeepSeek도 예외는 아닙니다. 일부 사용자는 DeepSeek가 표현력과 논리적 추론 능력이 뛰어나 생성되는 환각 문제가 더 식별하기 어렵다고 말했습니다.

한 네티즌은 소셜 미디어에서 DeepSeek에게 어떤 도시의 경로 계획 문제를 질문했습니다. DeepSeek는 몇 가지 이유를 설명하고 도시 계획 보호 규정과 데이터를 인용하며 "정숙 구역" 개념을 언급했는데, 이 답변이 매우 설득력 있어 보였습니다.

같은 질문에 대해 다른 AI의 답변은 그렇게 심오하지 않아 사람들이 "엉터리 말"이라고 쉽게 알아볼 수 있었습니다.

이 사용자는 해당 보호 규정을 확인한 결과 "정숙 구역"이라는 용어가 전혀 없다는 것을 발견했습니다. 그는 "DeepSeek가 중국 인터넷에 '환각의 만리장성'을 건설하고 있다"고 생각했습니다.

郭成凯도 유사한 문제를 발견했습니다. DeepSeek-R1의 답변은 전문 용어를 "엉뚱하게" 사용하는 경우가 많아, 특히 개방형 질문에서 "환각" 경험이 더 심각합니다. 이는 모델의 추론 능력이 너무 강해 방대한 지식과 데이터를 잠재적으로 연결하기 때문일 것이라고 추측했습니다.

그는 DeepSeek 사용 시 온라인 검색 기능을 켜고 사고 과정을 중점적으로 확인하며 오류를 수동으로 수정할 것을 제안했습니다. 또한 추론 모델 사용 시 가능한 한 간단한 프롬프트를 사용하는 것이 좋습니다. 프롬프트가 길수록 모델이 연관 지을 수 있는 내용이 많아집니다.

刘知远은 DeepSeek-R1이 양자 얽힘, 엔트로피 증가 및 감소 등 고급 용어를 자주 사용한다는 것을 발견했습니다. 이는 강화 학습 과정에서 어떤 메커니즘 때문일 것이라고 추측했습니다. 또한 R1은 일반 분야의 groundtruth가 없는 작업에서 추론 효과가 아직 이상적이지 않은데, 이는 강화 학습 훈련이 일반화를 보장하지 않기 때문일 수 있습니다.

이러한 "환각" 문제 외에도 DeepSeek가 해결해야 할 지속적인 문제들이 있습니다.

한편으로는 "증류 기술"로 인한 지속적인 분쟁

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트