DeepSeek,一家中国初创公司,凭借其强大的大型语言模型和开源基础设施在科技界引起了轰动。
DeepSeek 在证明仅用 600 万美元的硬件成本就能开发出与 OpenAI、谷歌和微软等公司耗资数十亿美元开发的 AI 模型相媲美的强大 AI 系统时,引发了 AI 行业的震动。
DeepSeek 是由投资者兼企业家梁文峰于 2023 年创立的,目标是推动通用人工智能(AGI)的发展。DeepSeek 于 2023 年 11 月 29 日首次发布了其语言模型 DeepSeek-Coder,但直到 2025 年 1 月 20 日 DeepSeek-R1 的发布,该公司才真正引起 AI 行业的轰动。
凭借不到 200 人的团队和仅 600 万美元的预算,DeepSeek 发布了一个免费开源的模型,其质量堪比 OpenAI 耗资 6 亿美元、历时两年、由 3500 人开发的 GPT-o1。
DeepSeek 通过优化招聘,专注于招聘应届毕业生,成功控制了成本。该公司的开源模型可供公众免费下载和使用,与 OpenAI 等公司主要提供付费订阅产品的做法不同。
DeepSeek 的技术突破被视为 AI 领域的一大进步。该模型的发布震惊了美国科技界,仅一天就导致多家大公司市值蒸发 1 万亿美元。
DeepSeek 的成功源于其独特的模型设计和训练方法。该公司采用 Mixture-of-Experts (MoE) 系统,仅激活 671 亿参数中的 37 亿参数来完成每项任务,大幅提高了效率。此外,DeepSeek 还开发了 Group Relative Policy Optimization 技术,提高了模型的决策能力。
DeepSeek 承诺以 MIT 许可证发布开源模型,允许用户下载、部署和定制,这与其他公司保持专有系统的做法不同。开源模型有助于开发者改进和分享技术,促进持续的进化和升级。
DeepSeek 得益于大量的 Nvidia A100 GPU 和相对便宜的硬件。有人估计 DeepSeek 可以访问约 5 万个 GPU,而 OpenAI 训练 ChatGPT 使用了 50 万个 GPU。
许多 AI 专家赞扬 DeepSeek 是一个强大、高效且低成本的模型,但也有人担心其隐私和数据安全问题。
OpenAI CEO Sam Altman 承认 DeepSeek 是一个强大的竞争对手,但 OpenAI 随后指控 DeepSeek 使用了 OpenAI 的专有模型进行训练。DeepSeek 还面临关于服务条款、网络安全实践和与中国政府关系的批评。
DeepSeek 的迅速崛起正在挑战西方科技公司的主导地位,并引发关于 AI 未来的重大问题:谁来构建、谁来控制,以及 AI 是否应该对所有人开放和可访问。DeepSeek 的长期影响仍存在许多未知数。