為什麼中國的 DeepSeek AI 讓每個人都驚歎不已,並引爆了市場

avatar
Decrypt
01-27
本文為機器翻譯
展示原文

一家中國人工智慧實驗室不僅建立了一個更便宜的AI模型,還暴露了整個行業方法的低效。

DeepSeek的突破性發現表明,一個小團隊透過努力節省資金,能夠重新思考如何構建AI模型。而OpenAI和Anthropic等科技巨頭僅在計算能力上就花費了數十億美元,DeepSeek據稱只用了500萬美元就取得了類似的結果。

該公司的模型在許多基準測試中與GPT-4o(OpenAI最佳LLM)、OpenAI o1(OpenAI目前最佳推理模型)和Anthropic的Claude 3.5 Sonnet相匹配或超越,全部訓練只用了大約2.788M H800 GPU小時。這只是傳統上認為必要的硬體的一小部分。

這個模型如此出色和高效,以至於在幾天內就登上了蘋果iOS生產力應用程式類別的榜首,挑戰了OpenAI的主導地位。

必要性是創新的母親。該團隊能夠使用美國開發人員甚至今天都不需要考慮的技術來實現這一目標。其中最重要的一個是,他們沒有使用全精度進行計算,而是實施了8位訓練,將記憶體需求減少了75%。

"他們發現了浮點8位訓練,至少對於某些數字來說,"Perplexity CEO Aravind Srinivas 告訴CNBC。"據我所知,我認為浮點8訓練並不太為人所知。美國大部分訓練仍在FP16執行。"

FP8的記憶體頻寬和儲存量只有FP16的一半。對於擁有數十億引數的大型AI模型來說,這種減少是很大的。DeepSeek需要掌握這一點,因為它的硬體較弱,而OpenAI從未受到這種限制。

DeepSeek還開發了一個"多令牌"系統,可以一次處理整個短語,而不是單個單詞,使系統的速度提高了一倍,同時保持了90%的準確性。

它使用的另一種技術是"蒸餾"——讓一個小模型複製一個更大模型的輸出,而不需要在同一知識庫上進行訓練。這使得釋出極其高效、準確和具有競爭力的小型模型成為可能。

該公司還使用了一種稱為"專家混合"的技術,這增加了模型的效率。而傳統模型一直保持所有引數的活躍,DeepSeek的系統使用了6710億總引數,但一次只啟用370億。這就像有一個大型專家團隊,但只調用某些任務所需的專家。

"我們使用DeepSeek-R1作為教師模型生成80萬個訓練樣本,並對幾個小型密集模型進行微調。結果很有希望:DeepSeek-R1-Distill-Qwen-1.5B在數學基準測試中的表現優於GPT-4o和Claude-3.5-Sonnet,AIME為28.9%,MATH為83.9%,"DeepSeek 在其論文中寫道。

為了對比,15億個引數對於一個模型來說是如此之小,以至於它不被認為是一個LLM或大型語言模型,而是一個SLM或小型語言模型。SLM需要如此少的計算和vRAM,使用者可以在像智慧手機這樣的弱機器上執行它們。

成本影響是驚人的。除了訓練成本降低了95%之外,Deepseek的API每百萬令牌只收取10美分,而類似服務收取4.40美元。一位開發人員報告說,他處理了20萬個API請求,只花了50美分,沒有速率限制

"DeepSeek效應"已經顯而易見。"讓我大聲說出這個隱藏的事實:AI模型構建是一個金錢陷阱,"投資者Chamath Palihapitiya說。儘管有人對DeepSeek進行了抨擊,但OpenAI CEO Sam Altman很快就剎住了他要從使用者那裡榨取金錢的步伐,因為社交媒體上到處都是人們免費使用DeepSeek實現了OpenAI每月收取200美元才能做到的事情。

與此同時,DeepSeek應用程式已經登上了下載排行榜,GitHub上三個熱門倉庫中有三個與DeepSeek有關。

大多數AI股票都在下跌,因為投資者質疑炒作是否已經達到泡沫水平。AI硬體(Nvidia、AMD)和軟體股票(微軟、Meta和谷歌)都受到了DeepSeek宣佈及其使用者和開發者分享的結果所引發的明顯正規化轉變的影響。

即使AI加密代幣也受到了打擊,出現了大量DeepSeek AI代幣冒充者試圖欺騙賭徒。

除了財務損失,從這一切中得到的啟示是,DeepSeek的突破錶明,AI開發可能不需要大型資料中心和專用硬體。這可能會從根本上改變競爭格局,將許多人認為是主要科技公司永久優勢的東西轉變為暫時領先。

時機簡直是滑稽可笑。就在DeepSeek宣佈之前幾天,特朗普總統、OpenAI的Sam Altman和甲骨文的創始人宣佈了"星門計劃"——一項價值5000億美元的美國AI基礎設施投資。與此同時,馬克·扎克伯格加大了Meta在AI開發上的投資,微軟130億美元的OpenAI投資突然看起來不再像戰略天才,而更像是由資源浪費引發的FOMO。

"不管你做了什麼都沒能阻止他們趕上來,"Srinivas告訴CNBC。"他們最終還是趕上來了。"

Andrew Hayward編輯

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
2
收藏
2
評論
Followin logo