解析分散式培訓

本文為機器翻譯
展示原文

我去哪兒了?

首先,要特別感謝sam lehmanrodeohausybsmacronanibuyrugs的所有評論、編輯、反饋和建議 - 你們幫助實現了這個目標,我真的很感激。

此外,其中一些 arxiv 鏈接會以基於瀏覽器的 PDF 形式打開,因此如果您不想處理這種情況,這只是一個警告。

寫這篇文章時,距離我上次發帖已經過去三個月了。從那時起我都在忙些什麼呢?

我不知道。我一直在閱讀大量書籍,每週鍛鍊五天,充分利用大學最後一個學期的時間。

每當我有一兩個月沒有寫過長篇報告時,我的心裡就會有點焦躁,所以這是我嘗試回到基線並重新回到正軌的嘗試。

如果您無法從標題判斷,這是一份主要關於分佈式/分散式培訓的報告,附帶一些關於人工智能領域正在發生的事情的信息,以及一些關於所有這些如何結合在一起/為什麼我認為它有價值的評論。

這不會像有關該主題的其他報告那樣技術性強,而且我確信它也不會完全準確。

然而,它將是您能找到的有關該主題的最易理解的報告。

這裡幾乎所有內容都進行了簡短詳細的解釋,如果沒有,那麼有一個或兩個超鏈接提供更詳細的解釋。

這是一份關於分散式和分佈式培訓的報告,聽起來可能可以互換,但這是兩件截然不同的事情。

當人工智能實驗室著手培訓法學碩士 (LLM) 時,他們的任務是管理一系列有助於完成和運作法學碩士 (LLM) 的義務。

研究人員和開發人員必須兼顧數據收集/管理預訓練/微調後訓練強化學習以及配置/部署

這並不是構建基礎模型的全部內容,但我以自己的方式將其拆分,希望更容易理解。您需要知道的是,LLM 會接收大量數據,團隊會決定模型的特定架構,然後進行訓練和改進,最後在模型發佈之前進行一些後期訓練和完善。哦,大多數 LLM 都使用轉換器架構

這一過程通常可稱為集中培訓

Sam Lehman 將分佈式訓練描述為“通過物理上不共置的硬件進行訓練的過程”,而去中心化訓練類似於分佈式訓練,因為用於預訓練的硬件不共置,但不同之處在於所使用的硬件是異構的且不受信任。”

之所以做出這種區分,是因為儘管本報告的大部分內容都提到了分佈式訓練,但使用加密激勵(即代幣)來創建和擴展分佈式訓練可以帶來巨大的價值。這可能是大多數讀者關心的問題。

向網絡貢獻者支付代幣以換取工作這一概念非常出名且有據可查。

即使不看 DePIN(去中心化物理基礎設施網絡)中更復雜的例子,你也可以在比特幣的 PoW 模型中找到這一點。

很難說這種模式是否適用於大多數DePIN 項目,但在我看來,去中心化培訓具有足夠高的意義和潛在的巨大經濟價值,因此這種行為可以長期受到激勵。與 DePIN 旗下的許多其他項目相比,去中心化培訓無疑是最重要的。

更簡單地說,我並不擔心一個假設的場景,即一個加密項目奇蹟般地實現了 AGI,而人們不想購買代幣或做出貢獻。我見過人們在賭注無限低的情況下表現更糟。

只是想把這個問題解決掉,別擔心——報告中會詳細闡述差異,所以如果你現在還沒有完整的瞭解也沒關係。

我寫這篇文章時很開心,希望你們讀起來也一樣開心。出於某種原因,我做這些事都是免費的。沒有人付錢讓我做這些事。

如果您喜歡的話,請考慮訂閱此博客(仍然免費)和/或與朋友分享或在 X 上重新發布。

玩得開心。

定義去中心化人工智能並闡明分佈式訓練價值主張

本節的重點:

* 注意:如果您閱讀這篇文章只是為了瞭解有關分佈式/分散式訓練的更多信息,那麼您可以跳過本節。*

如果你不寫關於加密的內容,或者更具體地說,不寫關於去中心化人工智能(簡稱DeAI )的內容,你就無法寫關於去中心化訓練的內容。

我原本將此部分放在報告的末尾,但決定最好將其移到最前面,放在所有無聊內容之前。

想要 TLDR 嗎?

分佈式訓練並不是一個偽裝成商業機會的複雜科學項目,而是一套越來越可行的步驟,可以徹底改變我們訓練人工智能模型的方式。

不僅如此,分佈式訓練還提供了一種替代方案,可以避免: a)大型技術公司在數據中心上投入的數千億美元的資本支出, b)為本地化集群設計的大量令人討厭的中間件,以及c)最終為小人物(我們所有人)提供了一個構建 ASI 的機會。

儘管廣大加密社區都喜歡說相反的話,但現實是,加密對人工智能的需求遠遠超過人工智能目前對加密的需求。我這樣說是什麼意思呢?

有些人可能會說,這是因為加密貨幣吸引的開發人才質量低於傳統人工智能行業,從而導致創意和產品缺乏野心,且總體上較為平淡。

其他人可能會說,這是因為所有不是比特幣或門羅幣的代幣都是虛假的,所以 DeAI 也不例外。你經常聽到這個說法。它在討論 memecoin 估值時最常用,但有時它延伸到討論 DeFi 或 DePIN 等更具粘性的領域以及存在於這些加密貨幣子集中的應用程序。

眾所周知,直到最近,DeAI 領域和無數公司都已經籌集了風險投資,並承諾通過某種新穎的加密增強技術來實現 AI 的去中心化,從而實現創新。

Galaxy的這張市場地圖在 2024 年第一季度就已經很擁擠了,很難將所有協議都納入其中。如果今天再製作一張,你甚至無法容納其中的 70%,更不用說以一種視覺上吸引人的方式將它們全部塞進去了:

我們從這些團隊中看到的大部分內容都可以看作是對未來的一種準備——未來的人工智能將與區塊鏈進行交互,在這個世界裡,我們突然需要所有這些與人工智能相關的、支持加密的技術。

現在怎麼樣?

當我說沒有太多創新時,我主要是說沒有發佈任何對 DeAI 的採用或非加密 AI 行業產生影響的東西。這很好,而且目的不是要放棄這些項目,因為最終可能會有少數項目獲得採用。

我的意思是,作為一個領域,DeAI 正在無所事事、等待,而不是採取行動

這些協議依賴於這樣一個事實:AI 被融入到了技術和商業的各個方面——順便說一句,這並不是一個糟糕的選擇,只要看看a16z 的數百篇企業 AI 博客文章中的一篇就可以了——但卻很難清楚地表達出他們為什麼要籌集資金和/或(主要是)為什麼他們與當今的 DeAI 行業相關。

我認為 DeAI 尚未經歷任何類似的“起飛”,因為a)全球絕大多數人口尚未使用區塊鏈, b) DeAI 正在解決的一些問題目前並不完全必要,以及c)許多提出的理念根本不可能實現

最重要的是,我相信 DeAI 並沒有引起我們圈子之外的太多關注,因為除了 memecoin 和穩定幣之外,讓人們對任何涉及加密的東西產生興趣都非常困難

這並不是對行業的打擊,只是一種觀察。而且這是非常明顯的。即使是像 Circle 這樣受到普遍尊重(信任?)的公司,也難以承受可能以 50 億美元估值進行 IPO 的暗示

但在我看來,第三點(提出的想法不可能實現)在 DeAI 短暫的生命週期中對其造成的損害最大。

這只是一個例子,對於大多數 DeAI 研究人員或一般懷疑論者來說應該相當清楚,但如果你試圖創建完全鏈上、完全自主的代理,無需人工中介即可進行交互,那麼實際上甚至沒有一個集中的推論可以對你的進展進行基準測試。

事實上,在區塊鏈之外,甚至還沒有一個完全自主的代理能夠在沒有人類中介的情況下持續互動。這就像在人類登陸火星之前就試圖在火星上建造房屋一樣。

完全自主的代理尚未發佈,甚至還沒有被主要人工智能實驗室過度預告,但我們看到 ai16z 和 virtuals 等貨幣的估值分別達到26 億美元和 46 億美元峰值

有許多代理框架 這些項目也推動了比特幣的發展,但收效甚微(在我看來)。我並不是想表現得太消極——因為交易這些代幣一段時間有趣——但這些對非加密 AI 行業實際上沒有任何貢獻。

這些 web3 團隊提出的框架尚未得到 Anthropic 或 OpenAI 甚至更廣泛的開源社區的採用。

比沒有獲得關注更糟糕的是,一個潛在的醜陋事實是,所有這些滑稽動作都只是重申了web2/TradFi/ 大型科技公司的集體信念,即加密貨幣仍然是一個根本不嚴肅的領域。

也許框架並不糟糕,只是因為這些項目推出了代幣,所以營銷很差——這對行業外的人來說可能是一個負面因素——但很難相信如此創新的東西不會僅僅因為創始團隊決定推出代幣而被採用。

我認識的每個經紀人都知道我討厭經紀人。”—— Ye原名 Kanye West 的藝術家

從一些基本的挖掘和一般的在線交互來看, MCP模型上下文協議)等東西的採用率遠高於這些框架,甚至有人聲稱MCP 已經獲勝。這是為什麼呢?因為它有效,它(大部分)是免費的,人們喜歡可以融入日常生活的軟件,以及他們已經使用的應用程序。

人們從代理框架中得到了什麼?通常,實際上只有“構建”或部署更多代理的能力,而這種描述在 99% 的 web3 案例中已經很誇張了。大多數人不想購買我們的代幣,那麼你認為他們會從部署與工作流無關、與推出新代幣有關的代理中獲得什麼價值呢?

* 注:@diego_defai 沒有貶低的意思,只是你的帖子最容易找到,而且最先出現。 *

但是,分散式人工智能到底什麼?為什麼我們被告知需要它?

Lucas Tcheyan 在 2024 年寫道:“加密技術和人工智能交叉領域的持續實驗和最終應用背後的驅動力與加密技術許多最有前景的用例的驅動力相同——訪問無需許可和無需信任的協調層,以更好地促進價值轉移

Sam Lehman 在他的報告中寫到了關於加密激勵的部分,他指出“加密已經表明,去中心化網絡可以通過提供精心設計的激勵措施實現大規模。 ”我的意思是,看看比特幣就知道了。

即使我們可以彼此坦誠相待並承認比特幣模型在紙面上至少有點奇怪但這並不能否認這樣一個事實:淨新激勵(通過工作獲得 BTC)改變了世界,並推動我們進入了美國政府積極探索 BTC 戰略基金的時間線。

這種思維方式也是去中心化物理基礎設施(簡稱 DePIN)背後的指導信念或運作方式(如果我可以這樣想的話), 0xsmac和我早在 2024 年 9 月就對此進行了描述。

我們對去中心化人工智能有幾種不同的定義,但沒有一個是明確的。考慮到這是一個新興行業中的新興領域,這是可以理解的,但我們至少應該能夠確定去中心化人工智能的 5W 要素 -什麼何時何地為什麼

誰會使用它?通過整合加密貨幣可以更好地解決哪些問題?什麼時候會使用它?這樣的產品在哪裡會吸引最多的關注或最大的用戶群?為什麼它需要風險投資(開玩笑的)和/或為什麼它需要存在?

在我看來,Prime Intellect 的Vincent Weisser簡明扼要地列出了幾乎所有人都能理解的挑戰和問題領域:

Vincent 還列出了 DeAI 的潛在用例以及可以/應該構建的內容。我不會一一列舉,但它幾乎涵蓋了堆棧的每一層,並以一種前所未有的方式總結了該領域。

分佈式(或 P2P)計算網絡、分散/聯合訓練方法、 分散推理、鏈上代理、數據來源、鏈上可驗證性以及少數其他。

DeAI 不僅僅是訓練模型的計算、被大型實驗室購買的抓取數據或驗證模型輸出是否正確的服務。它是一個完整的產品創新生態系統,旨在顛覆一個幾乎完全適合去中心化的行業。

似乎業內大多數人都被人工智能去中心化的挑戰所吸引,因為他們喜歡去中心化,但更重要的是,這對很多人來說是一個緊迫的問題。

如果 AGI 或 ASI 最終落入單一實體手中,那就不太公平了。

這太糟糕了。

我們中沒有人能夠充分利用這些超級智能的數字外星人,因為公司將擁有用於創建這些模型的模型權重代碼定製訓練方法技術

假設像 OpenAI 或 Deepseek 這樣的人首先發現它,它實際上也會成為重大的國家安全威脅(如果還沒有的話)。

如果分佈式訓練能夠大規模發揮作用(我們已經看到了),並且與其他 DeAI 技術(如零知識證明或其他隱私保護機制)相結合,也許我們就有很好的機會抵禦超級智能的壟斷。

在分佈式訓練研究人員不斷理解一套全新的擴展定律並隨後擴大分佈式訓練操作的世界中,我們不太可能回頭並優化過去更加本地化的訓練方法。

如果您是大型實驗室或像 Google / Meta / Amazon 這樣的大型科技公司,那麼研究分佈式訓練並將其作為優先事項對您最有利。Dylan Patel在 2024 年談到了這一點,但如果您仍想進一步確認大型科技公司和主要參與者正在積極探索這一點,請考慮由 DeepMind( 2014 年被 Google 以 6.5 億美元收購)撰寫的 DiLoCo 論文。還值得一提的是,Dylan Patel 在這裡寫了關於多數據中心訓練的文章。

Rodeo向我指出了一些現在回想起來非常明顯的事實——世界上最聰明的人和最大的科技公司正在積極尋求如何通過去中心化的原則創建一個龐大的節點網絡

這聽起來是不是很熟悉?

如果你必須爭論比特幣在其近二十年的存在中所做的事情,那就證明當一個由具有一致利益的個人組成的去中心化網絡獲得適當的激勵時,合法的變革就會發生。

首先,我們實現了貨幣去中心化,現在我們可以利用這個實驗來實現情報去中心化。在這個領域工作的人都面臨巨大的困難,但在比特幣的早期,你也可以提出同樣的論點。

我們可以將比特幣採用的早期階段與當前的 DeAI 社區進行比較,儘管它們之間存在許多差異,最顯著的就是更廣泛、更可證明的市場需求,以及風險投資的存在,但這並不意味著我們像比特幣一樣處於“早期”。

分佈式/多數據中心培訓的好處並不僅限於大型實驗室,事實上恰恰相反。

分佈式訓練等技術創新使全球各地的個人群體能夠彙集資源並訓練競爭模型。最大限度地減少通信要求只是其中的一部分。

那麼如何利用消費級硬件來降低在家訓練的門檻呢?

那麼,如果使用代幣作為引導創新的初始階段,並且不需要大量的資本支出,會怎麼樣呢?

稍後將在對Exo Labs工作的一些簡短分析中介紹這一點,但這裡有Alex Cheema 最近發佈的一條推文,其中結合 Apple 的 M3 Ultras 和 Meta 的新款 Llama 型號描述了這一確切概念。

分佈式訓練不僅可以解鎖更高效的訓練,還可以讓之前無法研究前沿模型的研究人員、業餘愛好者和愛好者組成的全球社區受益。當擁有數百甚至數千個 GPU 的幾十個人獲得與集中式前沿實驗室競爭的黃金門票時會發生什麼?

一些人工智能基礎知識、計算和縮放定律的概述

本節的重點:

  • 現代人工智能訓練依賴 GPU 實現數據並行,這使其成為行業瓶頸,同時也是一種非常熱門的商品

  • 增加計算和數據通常會帶來更高的性能,但擴展計算集群規模也會帶來一系列挑戰

  • DeepSeek 的進展展示了模型創建方面的創造力(而不僅僅是更多的 GPU),並證明你可以通過一些跳出框框的思維以更低的成本獲得最先進的結果

  • 集中式培訓非常昂貴且困難;分佈式培訓也是如此,但如果正確執行,將產生更多積極的外部效應

最好先重新認識一下人工智能行業正在發生的事情,並以此作為後續更復雜主題的起點。

希望大多數讀者能夠了解最近的法學碩士 ( Sonnet 3.7、GPT 4.5、Grok 3 )、 七雄爭霸的人工智能支出以及幾乎每週發佈的功能越來越強大的模型的最新動態。

有一些很好的報告描述了培養法學碩士所需的工作,因此我將引用其中一些:

培養法學碩士是一項資本密集型項目,下面您可以看到大型科技公司在基礎設施上投入了多少資金。稍後將詳細介紹,但大部分(如果不是全部)資金都用於 GPU、數據中心建設、維護和其他對最終產品有貢獻的硬件要求。

順便說一句,此名單僅限於三家大型科技公司:

您可能想知道為什麼使用 GPU 而不是 CPU,甚至想知道兩者之間有什麼區別。

Citrini 強調,GPU 和 CPU 之間的區別在於計算時採用的並行類型。GPU 針對所謂的數據並行進行了優化,而 CPU 更擅長任務並行。

機器學習行業意識到,最初為渲染圖形而設計的 GPU 也非常擅長快速執行計算。我不會詳細討論它們的速度,但它們的速度非常快。

數據並行是“對多個數據元素並行執行相同操作”的過程,而任務並行是“對相同或不同的數據執行不同的操作”。

對於訓練 LLM,數據並行性更有意義,因為解析大型數據集並對其執行簡單操作具有高度重複性,這就是 GPU 成為並保持如此熱門商品的原因。

任務並行之類的東西是沒有意義的,因為人工智能數據集是高度可變的——你不會想在龐大的數據集中對單個數據進行過度索引,因為你永遠無法完成模型的訓練,或者這會花費太長時間,從而成本高昂和/或效率極低。

人們喜歡說“計算”這個詞,他們說的就是 GPU。如果有人問“ Meta 有多少計算能力”或“ Elon 明年在計算方面投入了多少”,他們說的就是 GPU。

卡內基基金會撰寫了一篇很好的總結,介紹了計算的含義、工作原理以及它為何如此重要。如果您仍然有點迷茫,並且希望在閱讀本文的其餘部分之前有一個更全面的概述,那麼這篇文章將很有幫助。

計算一直是人工智能實驗室關注的重點,因為存在所謂的縮放定律,特別是性能更高的模型與用於訓練它們的大量 GPU和數據之間的冪律關係或相關性。

確切地說,這裡引用的具體定律被稱為訓練前縮放定律。下面的圖表略微超出了這一點,但我發現它有助於我們瞭解目前模型開發的狀況以及未來的發展方向:

簡短地說,OpenAI 2020 年關於縮放定律的論文據說是對計算、數據和模型參數數量之間關係的更基礎的分析之一。

縮放定律已經成立。

很難找到較新模型的準確 GPU 數量,但以下是對多年來 OpenAI 某些模型的縮放定律的粗略估計:

  • GPT-1 :1.17 億個參數和約 8 個 Nvidia V100

  • GPT-2 :15 億個參數和數十到數百個 Nvidia V100

  • GPT-3 :175b 個參數和 1k-2k+ 個 Nvidia V100

  • GPT-4 :數萬億的參數和 8k-30k 個 Nvidia A100/H100

您可能還記得 Sam Altman 呼籲投入數萬億美元來建設越來越大的數據中心,或者提議的 5000 億美元星際之門法案,甚至扎克伯格的2GW+數據中心雄心——這些舉措都源於(人們認為)對極其龐大、耗電巨大的數據中心的需求。

事實上,3 月 31 日 OpenAI 就宣佈完成新一輪融資,獲得 400 億美元的資本注入(其中 75% 來自孫正義和軟銀)。

由於縮放定律長期存在,每個想要構建良好模型的人都被迫積累越來越的計算量,以及性能更高的計算類型(即更好的 GPU)。其中大部分來自 Nvidia,但值得探索 Apple Silicon 的潛力

每個人都陷入了一場大規模的競相購買這些 GPU 並訓練更大的模型的競爭中,但事情變得複雜了。使用更多 GPU 訓練模型時,模型會變得更智能,但由於干擾、錯誤、冷卻要求、互連和一系列其他問題,訓練模型變得越來越困難。

後面的部分將介紹更多細節,但大多數訓練算法已經非常強大,瓶頸幾乎完全存在於實施和擴展階段。已經可以實現完全分佈式訓練運行,唯一的挑戰仍然是將其從 0.5 變為 1。

分佈式訓練實際上是解決這一問題的一步,這將是巨大的進步。

如果我們最終能夠在來自不同大洲和國家的多個不同數據中心訓練最先進的模型,並且沒有這些負擔,我們就可以以更少的麻煩和更高性能的訓練運行獲得更好的模型

這就是它如此重要的原因——如果證明可擴展,它可以與集中式培訓一樣好,但如果成功,它在幾乎所有其他方面都比集中式培訓更好。如果你仔細想想,這些集中式公司和實驗室必須將其運營轉向分佈式培訓的趨勢,而不是相反。

如果您已經擁有一個大型數據中心,那麼您很難逆向而行並重新設計基礎設施以適應分佈式訓練方法。但如果您是一個規模較小、更精幹的研究團隊,從第一天開始就致力於分佈式訓練的開創性工作,那麼您就更有能力從這項技術中獲益。

Epoch AI 在 2024 年撰寫了一份關於縮減規模的報告,不僅描述了傳統的(以計算為中心)的縮減規律,還描述了未來在預訓練運行中可能困擾實驗室的一些其他潛在瓶頸(將會介紹)。

這裡需要強調的最重要的一點是,GPU 的數量或數據中心的規模並不是唯一的瓶頸。除了獲取這些 GPU(這已經夠難的了)之外,實驗室還需要應對功率限制、延遲壁壘、芯片製造能力,甚至地緣政治緊張局勢。

這只是集中式訓練運行所關注問題的清單——分佈式訓練有其自身的一系列問題,主要是解決溝通瓶頸和擴展訓練運行。

許多其他約束與分佈式訓練相關,因為顯而易見的現實是,分佈式訓練本質上對地理、位置以及(不確定這是否是一個詞)局部性等因素很敏感。

分佈式訓練不僅僅是研究如何訓練位於多個位置的模型,而是一個包羅萬象的領域,它解決集中式訓練中最困難的問題,並將其與分佈式訓練研究中更具挑戰性的、未經證實的理論相結合。

這就是這個話題對我如此突出的原因之一——風險非常高,而且這是許多學科重疊的領域之一,幾乎不可能全面瞭解正在發生的事情。

如果你考慮到技術在時間上的重大飛躍,分佈式訓練就符合要求並且值得獲得成功,即使目前我沒有任何代幣可以推動這一進程。

關於縮放定律“終結”或經歷收益遞減的想法一直受到很大爭議,而我實際上無權發表意見,因為在大多數情況下,沒有人完全確定。

除了訓練前的縮放定律之外,還有很多關於訓練後測試時計算(TTC) 定律的內容。訓練後涉及微調、強化學習等主題,以及下一節中介紹的一些其他更高級的機制。

另一方面,TTC 則複雜得多。

但我是寫這些的人嗎?寫這份報告簡直是筋疲力盡,因為感覺我總是前進一步,後退三步,努力理解新信息,或者發現我寫了一整節,但不幸的是,我把所有的內容都搞錯了。我非常努力,但原因是什麼呢?

我寫這些甚至沒賺到任何錢。

簡而言之,由於 OpenAI 的“o”模型相對於 GPT-4 和前幾年發佈的非推理模型的驚人改進率,後訓練定律目前非常流行:

後訓練研究目前非常火爆,因為它確實有效(當然),而且它是一種更具成本效益的擴展模型性能的方法,前提是你已經擁有 GPU 的大型實驗室。簡而言之,後訓練主要具有附加作用,並有可能重新定義大型實驗室如何推動 AGI。

我提到強化學習與推理模型的結合確實挑戰了業界對擴展定律的認知,但它並不一定駁倒任何反對這些擴展定律的論點。

如果說後訓練方面取得的進步有什麼意義的話,那就是它只會讓整個模型創建生命週期受益,因為這些新數據最終可以輸入到更好的模型中。如果現在還沒有實現這一點,那麼未來 99% 的模型創建和管理創新可能都來自後訓練優化。

但現在就夠了。我將回顧一下預訓練過程以及 GPU 之外的一些更關鍵的功能。

計算對於訓練運行顯然至關重要,但正如我之前暗示的那樣,還有一組完全獨立的存儲內存能源網絡要求與 GPU 一樣重要。

  • 能源:大型數據中心顯然需要大量能源,但冷卻基礎設施又如何呢?如何實際滿足必要的能源需求並確保持續的電力輸出呢?

  • 貯存 LLM 由大型數據集和參數組成,因此你可以想象它的存儲要求很高。

  • 記憶 預訓練運行可能需要一段時間,並且需要適當的內存要求來維護 GPU 和節點之間的內存。

  • 網絡 Citrini 的互連報告為您提供了比您需要了解的有關網絡的更多信息,但數據中心需要高速和低延遲的互連才能真正促進運行。

所有這些模型都是用互聯的、大型的、地理位置受限的集群進行預先訓練的,這些集群消耗大量能源,並採用了昂貴且功能強大的技術。

隨著各大企業紛紛加入超級智能競賽,數百億美元資金已用於數據中心建設、實驗室融資以及無數其他支出。

但今年早些時候情況變得複雜起來。

DeepSeek-R1 及其配套論文於 2025 年 1 月 22 日發佈,在大家開始關注之前,大概有一週的時間沒有引起人們的注意。除非你一直處於數字時代,或者短期記憶力很差,否則 R1 對業內幾乎所有人來說都是一記重磅炸彈。

據說R1 使用了 2,048 個 Nvidia H800 GPU 進行訓練,假設每塊 GPU 的成本為 30,000 美元,那麼這些 GPU 的價值約為 6100 萬美元——根據 DeepSeek 的購買地點和時間,誤差在 5,000 美元左右。然而,上述基於眾多互聯網來源的報告與半分析報告也有差異,後者估計有 10,000 塊 H800 和 10,000 塊 H100。

我認為,無論訓練模型所用的 GPU 數量有多少,DeepSeek 所取得的成就才是真正的成功。這並不是所謂的削減成本或規避 GPU 進口法規的能力,而是模型構建和強化學習進步方面的創造力

DeepSeek 的 GPU 惡作劇新聞讓很多人感到震驚,因為在過去的 2-3 年裡,每個主要實驗室都優先積累越來越多的計算能力,而且幾乎沒有跡象表明這不是構建高性能模型的“正確”方式。DeepSeek 的流程和策略將在下一節中詳細介紹。

以下是其他一些基礎模型及其各自的成本,不考慮訓練時間或預訓練過程中的其他障礙:

  • OpenAI 的GPT 4o :25,000 個 Nvidia A100 @ $8-20k/GPU

  • xAI 的Grok 2 :20,000 個 Nvidia H100 @ $25-30k/GPU

  • Google 的Gemini 2.0 :100,000 個 Trillium 芯片,每個芯片每小時 2.7 美元

  • Meta 的Llama 3.1 :16,000 個 Nvidia H100 GPU

  • Anthropic 的Claude 3.5 Sonnet :未指定但估計有數萬首

  • OpenAI 的GPT o1 :未指定但據稱有很多 GPU

* 注意:我想在這裡添加引文,但使用了太多不同的資源,而且當我編輯這篇文章時,回頭查找這些資源會花費太多精力。Sam Lehman 還向我指出,員工工資 + 薪酬可以計入這些成本,因此如果您想探索培訓運行的絕對成本,這一點值得考慮。*

儘管我們沒有某些舊模型的成本或 GPU 數量(可以理解,也不知道許多新模型,如 Claude 3.7 和 GPT 4.5),但我們可以假設它們遵循了 AI 的擴展定律,並且積累了越來越多的 GPU 或性能更高的 GPU。

值得一提的是,並非所有的預訓練運行都是平等的。

Llama-3 技術報告是一個很好的資源,可以幫助我們瞭解其中涉及的變量數量,下表顯示了一些簡單的事情如何很容易阻礙運行或產生導致訓練時間閒置的問題。

從列表中可以看出,這可能是與 GPU、網絡、依賴性、維護甚至未知因素相關的問題 - 你不能排除任何可能性。僅僅擁有 GPU 並不能讓你獲得完美預訓練運行的黃金門票。

我可以花些時間來研究一些用於衡量訓練效率的擬議方程,如MFUMAMMFSFU連續性,但 Ronan 在這方面已經做得很好,這可能會使這份報告拖延得比它應該的更長。

TLDR?

許多不同的變量決定了訓練運行的效率,包括軟件和硬件,但其中大部分取決於 FLOP 並且需要很長的時間來測量它。

無論如何。

下一部分將擴展我們對 LLM 的瞭解並剖析培訓過程,特別是培訓後階段以及此處發生的一些創新。

探索推理模型和強化學習

本節的重點:

  • 推理模型已迅速成為新發布的最先進模型的主導結構(幾乎涵蓋每個實驗室

  • 強化學習是一個非常技術性的問題領域,它正在迅速成為模型優化創新的主要載體之一

  • DeepSeek 做了很多令人印象深刻的事情,在許多實驗室似乎停滯不前的時候,它突破了模型設計的界限,值得稱讚

我們可以轉向最近的流行和部署推理模型,這些模型已被證明是非常有能力的,甚至導致 Sam Altman 聲稱這些模型是 OpenAI 在可預見的未來( GPT-4.5之後)的重點:

推理模型是一種獨特的語言模型,通過強化學習進行訓練,可以執行更復雜的推理,這些模型可以在產生輸出之前進行思考。這些推理模型的開發是為了更好地模擬人類以及我們在日常生活中解決問題的方式,在回答用戶的查詢之前,產生一個詳細描述其內部想法的思維鏈。它看起來如下:

Sebastian Raschka 在報告中寫道,改進推理模型的主要方法有兩種:增加訓練計算增加推理計算,這也可以稱為推理時間擴展測試時間擴展,區別在於擴展是在何時完成的。在這種情況下,推理時間是指在訓練完成後發生的一段時間。

Ronan 的報告強調了推理範式下擴展的一個未被充分重視的方面,引用了Prime Intellect 上 samsja的一條推文:

這是我的錯,沒有早點解釋整個前向/後向傳遞的事情,但現在是用它來支持分佈式訓練論文的最佳時機。

當神經網絡處理數據輸入時,會發生前向傳遞,逐層進行,並從輸入 → 輸出向前運行模型。後向傳遞是測量模型輸出與假定正確答案的偏差的計算,這些信息通過模型向後傳遞,以告知參數需要調整哪些權重。

推理模型和後訓練階段改進的有趣之處源於這樣一個事實:這些過程在預訓練階段對通信的要求本質上較低。Samsja 指出,強化學習和正常訓練在前向傳遞計數方面存在數量級差異。

這讓我們想到了 DeepSeek。

DeepSeek-R1 令人震驚,因為相比之下 2,048 個 H800 顯得很小,這是通過同時使用幾種不同的技術實現的:

  1. 混合專家(MoE)

  2. 多頭潛在注意力(MHLA)

  3. 監督微調(SFT)和強化學習(RL)

* 注意:您可能還記得我2023 年 11 月關於 Bittensor 的報告中聽說過 MoE。 *

將所有這些技術結合在一起,我們得到了一個擊敗許多性能最強、商業上可用的 LLM 模型,這引發了人們的猜測和爭論(早在 1 月份),即 DeepSeek-R1 是目前最好的先進模型:

Haus 向我介紹了 DeepSeek 實現的另一項未被充分重視的工程壯舉。以下是來自其來源( Stratechery )的簡短解釋:

“事情是這樣的:我上面解釋的大量創新都是為了克服使用 H800 而不是 H100 所隱含的內存帶寬不足問題。此外,如果你真的對上一個問題做了計算,你就會意識到 DeepSeek 實際上有多餘的計算;這是因為 DeepSeek 實際上對每個 H800 上的 132 個處理單元中的 20 個進行了編程,專門用於管理跨芯片通信。這在 CUDA 中實際上是不可能做到的。DeepSeek 工程師不得不降級到 PTX,這是 Nvidia GPU 的低級指令集,基本上就像彙編語言一樣。這是一個瘋狂的優化級別,只有在使用 H800 時才有意義。”

我做了進一步的挖掘,發現這個問題非常複雜,但 DeepSeek 不僅能夠在軟件方面(MoE、SFT 和 RL 方面)進行創新,而且還能在極具挑戰性的硬件問題上進行創新,例如從CUDA (由 Nvidia 創建的並行計算平臺)進行 PTX 轉換。

據我瞭解,大多數模型開發和 GPU 相關工作都使用 CUDA,只是因為它是與 Nvidia GPU(迄今為止需求最廣泛的 GPU )一起使用的標準。

如果說 DeepSeek 能給我們帶來什麼教訓的話,那就是難題是需要解決的,而整個行業仍在不斷髮現新的、更關鍵的難題來解決。

這一刻非常重要,因為這是人工智能社區在很長一段時間內第一次醒悟過來並意識到,僅僅向新模型投入更多計算可能並不是擴展模型性能的最佳方式。

如果在整個模型訓練過程中更具創造力是開啟 AGI 更可能之路的關鍵,那會怎樣?如果秘訣不是那麼明顯,那會怎樣?

這種邏輯最終將擴展到以分佈式方式訓練模型的想法,特別是挑戰 GPU必須位於單一地理位置才能訓練 SOTA 模型的觀念,以及有關是否有必要使用大量 GPU 的一些想法,或者是否有辦法將這些擴展方法結合起來並實現真正卓越的成果。

還有其他幾種方法可以進一步提高推理能力,包括推理時間計算擴展、純強化學習、RL + SFT 和純 SFT - 我不會過多地討論這些內容。就像我在上一節中所說的那樣,我們有一些這樣的擴展定律,它們都同樣取得了公平的進步,而業界仍在學習如何同時理解它們。

Sebastian 提供了一份推理論文清單,展示了研究人員的創造力。為了展示這一切有多麼奇怪,如果您想深入瞭解其中的奧秘,這裡有一些片段:

  • 諸如“思考不足”之類的術語和“思維轉換懲罰”之類的方法用於幫助推理模型“更好地思考”

  • 研究人員探索法學碩士的聯想記憶及其對信息吸收的影響

  • 回溯方法用於幫助推理模型探索替代解決方案

介紹強化學習非常重要,它是機器學習/人工智能的一個子集,涉及代理與其環境之間的關係

強化學習是一個根據代理的行為賦予其獎勵和懲罰的過程,逐漸引導代理找到正確的答案。

儘管定義指的是

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
2
收藏
1
評論