DeepSeek,一家中國初創公司,憑藉其強大的大型語言模型和開源基礎設施在科技界引起了轟動。
DeepSeek 在證明僅用 600 萬美元的硬體成本就能開發出與 OpenAI、谷歌和微軟等公司耗資數十億美元開發的 AI 模型相媲美的強大 AI 系統時,引發了 AI 行業的震動。
DeepSeek 是由投資者兼企業家梁文峰於 2023 年創立的,目標是推動通用人工智慧(AGI)的發展。DeepSeek 於 2023 年 11 月 29 日首次釋出了其語言模型 DeepSeek-Coder,但直到 2025 年 1 月 20 日 DeepSeek-R1 的釋出,該公司才真正引起 AI 行業的轟動。
憑藉不到 200 人的團隊和僅 600 萬美元的預算,DeepSeek 釋出了一個免費開源的模型,其質量堪比 OpenAI 耗資 6 億美元、歷時兩年、由 3500 人開發的 GPT-o1。
DeepSeek 透過最佳化招聘,專注於招聘應屆畢業生,成功控制了成本。該公司的開源模型可供公眾免費下載和使用,與 OpenAI 等公司主要提供付費訂閱產品的做法不同。
DeepSeek 的技術突破被視為 AI 領域的一大進步。該模型的釋出震驚了美國科技界,僅一天就導致多家大公司市值蒸發 1 萬億美元。
DeepSeek 的成功源於其獨特的模型設計和訓練方法。該公司採用 Mixture-of-Experts (MoE) 系統,僅啟用 671 億引數中的 37 億引數來完成每項任務,大幅提高了效率。此外,DeepSeek 還開發了 Group Relative Policy Optimization 技術,提高了模型的決策能力。
DeepSeek 承諾以 MIT 許可證釋出開源模型,允許使用者下載、部署和定製,這與其他公司保持專有系統的做法不同。開源模型有助於開發者改進和分享技術,促進持續的進化和升級。
DeepSeek 得益於大量的 Nvidia A100 GPU 和相對便宜的硬體。有人估計 DeepSeek 可以訪問約 5 萬個 GPU,而 OpenAI 訓練 ChatGPT 使用了 50 萬個 GPU。
許多 AI 專家讚揚 DeepSeek 是一個強大、高效且低成本的模型,但也有人擔心其隱私和資料安全問題。
OpenAI CEO Sam Altman 承認 DeepSeek 是一個強大的競爭對手,但 OpenAI 隨後指控 DeepSeek 使用了 OpenAI 的專有模型進行訓練。DeepSeek 還面臨關於服務條款、網路安全實踐和與中國政府關係的批評。
DeepSeek 的迅速崛起正在挑戰西方科技公司的主導地位,並引發關於 AI 未來的重大問題:誰來構建、誰來控制,以及 AI 是否應該對所有人開放和可訪問。DeepSeek 的長期影響仍存在許多未知數。