一 夜之間,中國大模型在國際上狠狠秀了一波肌肉。
近日,國產大模型廠商 DeepSeek 宣佈 DeepSeek-V3 首個版本上線並同步開源。
多項基準測試成績顯示,DeepSeek-V3 超越 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,並在性能上與 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
一手技術報告中提到,該模型的預訓練階段也就 用 2048 塊 GPU 訓練了 2 個月,並且只花費了 557.6 萬美元。
低成本創造高價值。
堪稱 國貨之光的 DeepSeek-V3 更是直接 炸出了一大堆海外專業 AI 人士的背書。
醒醒,Deepseek,你現在是真的火了。
附上體驗地址:chat.deepseek.com
DeepSeek-V3 上手實測,這次真的不一樣
先來看看 DeepSeek 官方交出的亮眼成績單:
- 百科知識:DeepSeek-V3 在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當前表現最好的模型 Claude-3.5-Sonnet-1022。
- 長文本:在長文本測評中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現超越其他模型。
- 代碼:DeepSeek-V3 在算法類代碼場景(Codeforces),遠遠領先於市面上已有的全部非 o1 類模型;並在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
- 數學:在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。
- 中文能力:DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現相近,但在事實知識 C-SimpleQA 上更為領先。
DeepSeek-V3 發佈之後,瞬間在海內外引起了巨大的反響。
前 Google Search 成員 Deedy 直接放話,DeepSeek V3 代表了全球最強的開源大模型,沒跑了。
DeepS eek-V3 的高效益也得到了前 OpenAI 大神 Andrej Karpathy 的蓋章印證:
「(DeepSeek)這是否意味著開發前沿級 LLM 不需要大型 GPU 集群?並非如此,但你必須確保對資源的高效利用。這次的成果是一個很好的例證,說明在數據和算法方面仍有大量優化空間可以挖掘。」
Meta AI 研究科學家田淵棟興奮地連發兩條推文:
「閱讀報告,發現他們從零開始對 H800 進行的驚人破解 🤯
FP8 預訓練、MoE、在非常有限的預算下實現強勁性能、通過 CoT 蒸餾進行引導啟動……哇,這真是了不起的工作 👏👏 👍👍」
X 網友 Tom Dörr 玩了一圈後直呼 Deepseek V3 太聰明瞭,甚至不需要解釋就懂我在說啥,感覺 機器裡藏個鬼似的 」
別急,還有高手。
有網友直接將 4/8個M4 Mac mini 堆疊在一起來跑 DeepSeek-V3。還有開發者使用 DeepSeek-V3 三下五除二就做出了一個小遊戲。
對比國外的 ChatGPT、Claude 之流, DeepSeek-V3 人人免費,且國內現在就能用。 我已經替大 夥簡單上手體驗了。
真的, DeepSeek-V3 響應速度之快還是出乎我的意料。
前代 v2.5 版本每秒能生成 20 個 token(可以理解為差不多 7-8 個漢字),而新版本 v3 直接提速到每秒 60 個 token,速度直接飆升到了原來的 3 倍。
打個比方,v2.5 就像是正常人說話的節奏,而 v3 的速度已經像是一個訓練有聲的播音員在快速播報了。
不過, DeepSeek-V3 並不支持多模態輸入輸出,估計還得再耐心等待。 而 體驗下來, 「 9.8 和 9.11 哪個大 」和 「 strawberry 裡有多少個 r 」已經難不倒它了。
繼續上點強度。
「 我有 6 個雞蛋,碎了 2 個,煎了 2 個,吃了 2 個,還剩下幾個? 」
DeepSeek-V3 快是快了,但還是掉進了腦筋急轉彎的陷阱(2 個),而 GPT-4o 則成功作答(4 個),這一回合,GPT-4o 完勝。
最近情商測試題在 X 平臺很火,我們也試了試。
看得出來,GPT-4o 和 DeepSeek-V3 似乎 都很喜歡「42」這個數字。
很好,邏輯題也都沒有繞暈 GPT-4o 和 DeepSeek-V3。
「如果明天是晴天,那麼我今天會去郊外露營,如果我今天去郊外露營,那麼明天一定是晴天嗎?」
至於 DeepSeek-V3 會不會偏科,我們也試著讓 GPT-4o 給它以及 Claude-3.5-Sonnet 出一道數學題。
「設函數 f ( x , y ) = x 3 + 3 x y 2 − 3 x − y 3 + 2 y f(x,y)=x3+3xy2−3x−y3+2y。求函數在點 ( 1 , 1 ) (1,1) 處的梯度,並判斷該點是否為極值點,若是極值點,請判斷其為極大值點、極小值點還是鞍點。」
片刻之後,DeepSeek-V3 以及 Claude-3.5-Sonnet 分別給出了各自的答案。
誰說 AI 只能燒錢,DeepSeek-V3 究竟做對了什麼?
翻開 DeepSeek-V3 的技術報告,我通篇只看到了創新二字。
DeepSeek-V3 為自研 MoE 模型,671B 參數,激活 37B,在 14.8T token 上進行了預訓練。
MoE 架構不難理解, 就像一個公司有不同部門的專家(如財務、技術、市場等), 每個專家都精通自己的領域,但不需要處理所有工作。
MoE 模型中的每個「專家」也是如此,專門處理特定類型的任務,遇上任務時,能夠智能地調動最合適的專家來解決特定問題。
基於其前身 DeepSeek-V2 的高效性,該模型集成了多頭潛在注意力(Multi-head Latent Attention, MLA)和 DeepSeekMoE 架構,從而實現了高效推理和成本優化的訓練。
報告中還提到 DeepSeek-V3 引入了兩個關鍵創新。
一種無需輔助損失的負載平衡策略,以及一種多 Token 預測(Multi-Token Prediction, MTP)的訓練目標。
兩千塊 GPU,兩個月時間,DeepSeek 用最優雅的方式證明了技術創新的重要性。
具體而言,該模型在 14.8 萬億多樣且高質量的 Token 上完成預訓練, 隨後通過監督微調(SFT)和強化學習(RL)階段進一步優化性能。
預訓練階段在 2048 個 H800 GPU 的集群上耗時不到兩個月,總計 266.4 萬個 GPU 小時。
通過優化算法、框架與硬件的協同設計,DeepSeek-V3 的總訓練成本為 557.6 萬美元,並且 這一成本還包括預訓練、上下文長度擴展及後續訓練階段。
技術報告的貢獻與致謝名單,清一色中文姓名
更多細節歡迎查詢技術報告:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
對於開發者而言,DeepSeek-V3 API 服務定價也將調整為每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元。
更重要的是, 追求普惠 AGI 的 DeepSee k 率先開放了採用 FP8 訓練的 DeepSeek-V3 原生權重。
得益於開源社區的支持,SGLang 和 LMDeploy 已經第一時間支持了 V3 模型的原生 FP8 推理,同時 TensorRT-LLM 和 MindIE 則實現了 BF16 推理。
此外,為方便社區適配和拓展應用場景, DeepSeek 官方還提供了從 FP8 到 BF16 的轉換腳本。
模型權重下載和更多本地部署信息請參考:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
可以說,今年的聖誕老人來自中國的 DeepSeek。
而這份源自中國的聖誕禮物,讓全球見證了 AI 的中國速度。
海外有 Meta,中國有 DeepSeek、智譜、面壁等國產廠商, 中國 在 開源社區的 存在感也因此在不斷攀升。
更多的廠商為中國開源盛世傾注一份心力的同時, 也是在呼籲這種純粹和利他性的迴歸。
如果說今天凌晨 ChatGPT 的再度宕機提醒我們 AI 模型多元化的重要性,那麼下一次,我們將多出一個可靠的選擇。
那就是來自中國的 DeepSeek-V3。
One more thing
最近,ChatGPT o3 聊天記錄編造器爆火,我們也跟風生成了一個聊天界面。
o3 都這麼說了,這下真不能不信了(手動狗頭)。
附上體驗地址:https://chatgpt-meme-generator.vercel.app/
本文來自微信公眾號“APPSO”,作者:發現明日產品的,36氪經授權發佈。





