本文為機器翻譯
展示原文

啟用 fp8 訓練後,「GPT-2 訓練時間」提升了 4.3%,現在只需 2.91 小時。另外值得一提的是,如果使用 8 倍 H100 實例價格,則復現 GPT-2 的成本實際上只需約 20 美元。這令人振奮—— GPT-2(7 年前):發布風險太大。 GPT-2(今天):新的 MNIST 資料集! :) 肯定能遠低於 1 小時。 關於 fp8,我再補充幾句。它比我預想的要複雜一些,我花了一段時間才最終決定採用它,即使現在,由於 fp8 的整體支持度較低,我仍然不能完全確定它是否是個好主意。理論上,H100 上的 fp8 浮點運算能力是 2 倍,但實際上卻遠低於此。在實際訓練過程中,我們並非完全受限於計算能力,額外的尺度轉換會帶來額外的開銷,GEMM 模型在 GPT-2 規模下還不夠大,不足以明顯抵消這些開銷,當然,精度越低,每一步的質量就越小。對於逐行縮放方案,FP8 和 BF16 的損失曲線非常接近,但網路步進速度較慢。對於逐張縮放方案,損失曲線的差異更大(即每一步的品質都較差),但至少我們現在獲得了速度提升(約 7.3%)。你可以透過增加訓練週期(訓練更多步,但每一步速度更快)來簡單地恢復性能,並希望最終網路效能能夠提升。在這種情況下,經過這些方案和訓練週期的調整,目前我最終獲得了約 5% 的速度提升。 Torchao 在他們的論文中報告稱,Llama3-8B 的 FP8 訓練速度提升了 25%(相比之下,我未考慮模型容量的情況下提升了約 7.3%),這更接近我最初的預期,儘管 Llama3-8B 的模型規模要大得多。這可能並非 FP8 的終點。透過精確選擇應用 FP8 的層,並更謹慎地處理網路中的數值,應該還有提升的空間。

Andrej Karpathy
@karpathy
02-01
nanochat can now train GPT-2 grade LLM for <<$100 (~$73, 3 hours on a single 8XH100 node). GPT-2 is just my favorite LLM because it's the first time the LLM stack comes together in a recognizably modern form. So it has become a bit of a weird & lasting obsession of mine to train
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論