一家中国人工智能实验室不仅建立了一个更便宜的AI模型,还暴露了整个行业方法的低效。
DeepSeek的突破性发现表明,一个小团队通过努力节省资金,能够重新思考如何构建AI模型。而OpenAI和Anthropic等科技巨头仅在计算能力上就花费了数十亿美元,DeepSeek据称只用了500万美元就取得了类似的结果。
该公司的模型在许多基准测试中与GPT-4o(OpenAI最佳LLM)、OpenAI o1(OpenAI目前最佳推理模型)和Anthropic的Claude 3.5 Sonnet相匹配或超越,全部训练只用了大约2.788M H800 GPU小时。这只是传统上认为必要的硬件的一小部分。
这个模型如此出色和高效,以至于在几天内就登上了苹果iOS生产力应用程序类别的榜首,挑战了OpenAI的主导地位。
必要性是创新的母亲。该团队能够使用美国开发人员甚至今天都不需要考虑的技术来实现这一目标。其中最重要的一个是,他们没有使用全精度进行计算,而是实施了8位训练,将内存需求减少了75%。
"他们发现了浮点8位训练,至少对于某些数字来说,"Perplexity CEO Aravind Srinivas 告诉CNBC。"据我所知,我认为浮点8训练并不太为人所知。美国大部分训练仍在FP16运行。"
FP8的内存带宽和存储量只有FP16的一半。对于拥有数十亿参数的大型AI模型来说,这种减少是很大的。DeepSeek需要掌握这一点,因为它的硬件较弱,而OpenAI从未受到这种限制。
DeepSeek还开发了一个"多令牌"系统,可以一次处理整个短语,而不是单个单词,使系统的速度提高了一倍,同时保持了90%的准确性。
它使用的另一种技术是"蒸馏"——让一个小模型复制一个更大模型的输出,而不需要在同一知识库上进行训练。这使得发布极其高效、准确和具有竞争力的小型模型成为可能。
该公司还使用了一种称为"专家混合"的技术,这增加了模型的效率。而传统模型一直保持所有参数的活跃,DeepSeek的系统使用了6710亿总参数,但一次只激活370亿。这就像有一个大型专家团队,但只调用某些任务所需的专家。
"我们使用DeepSeek-R1作为教师模型生成80万个训练样本,并对几个小型密集模型进行微调。结果很有希望:DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中的表现优于GPT-4o和Claude-3.5-Sonnet,AIME为28.9%,MATH为83.9%,"DeepSeek 在其论文中写道。
为了对比,15亿个参数对于一个模型来说是如此之小,以至于它不被认为是一个LLM或大型语言模型,而是一个SLM或小型语言模型。SLM需要如此少的计算和vRAM,用户可以在像智能手机这样的弱机器上运行它们。
成本影响是惊人的。除了训练成本降低了95%之外,Deepseek的API每百万令牌只收取10美分,而类似服务收取4.40美元。一位开发人员报告说,他处理了20万个API请求,只花了50美分,没有速率限制。
"DeepSeek效应"已经显而易见。"让我大声说出这个隐藏的事实:AI模型构建是一个金钱陷阱,"投资者Chamath Palihapitiya说。尽管有人对DeepSeek进行了抨击,但OpenAI CEO Sam Altman很快就刹住了他要从用户那里榨取金钱的步伐,因为社交媒体上到处都是人们免费使用DeepSeek实现了OpenAI每月收取200美元才能做到的事情。
与此同时,DeepSeek应用程序已经登上了下载排行榜,GitHub上三个热门仓库中有三个与DeepSeek有关。
大多数AI股票都在下跌,因为投资者质疑炒作是否已经达到泡沫水平。AI硬件(Nvidia、AMD)和软件股票(微软、Meta和谷歌)都受到了DeepSeek宣布及其用户和开发者分享的结果所引发的明显范式转变的影响。
即使AI加密代币也受到了打击,出现了大量DeepSeek AI代币冒充者试图欺骗赌徒。
除了财务损失,从这一切中得到的启示是,DeepSeek的突破表明,AI开发可能不需要大型数据中心和专用硬件。这可能会从根本上改变竞争格局,将许多人认为是主要科技公司永久优势的东西转变为暂时领先。
时机简直是滑稽可笑。就在DeepSeek宣布之前几天,特朗普总统、OpenAI的Sam Altman和甲骨文的创始人宣布了"星门计划"——一项价值5000亿美元的美国AI基础设施投资。与此同时,马克·扎克伯格加大了Meta在AI开发上的投资,微软130亿美元的OpenAI投资突然看起来不再像战略天才,而更像是由资源浪费引发的FOMO。
"不管你做了什么都没能阻止他们赶上来,"Srinivas告诉CNBC。"他们最终还是赶上来了。"