启用 fp8 训练后,「GPT-2 训练时间」提升了 4.3%,现在只需 2.91 小时。另外值得一提的是,如果使用 8 倍 H100 实例价格,则复现 GPT-2 的成本实际上只需约 20 美元。这令人振奋—— GPT-2(7 年前):发布风险太大。 GPT-2(今天):新的 MNIST 资料集! :) 肯定能远低于 1 小时。 关于 fp8,我再补充几句。它比我预想的要复杂一些,我花了一段时间才最终决定采用它,即使现在,由于 fp8 的整体支持度较低,我仍然不能完全确定它是否是个好主意。理论上,H100 上的 fp8 浮点运算能力是 2 倍,但实际上却远低于此。在实际训练过程中,我们并非完全受限于计算能力,额外的尺度转换会带来额外的开销,GEMM 模型在 GPT-2 规模下还不够大,不足以明显抵消这些开销,当然,精度越低,每一步的质量就越小。对于逐行缩放方案,FP8 和 BF16 的损失曲线非常接近,但网路步进速度较慢。对于逐张缩放方案,损失曲线的差异更大(即每一步的品质都较差),但至少我们现在获得了速度提升(约 7.3%)。你可以透过增加训练周期(训练更多步,但每一步速度更快)来简单地恢复性能,并希望最终网路效能能够提升。在这种情况下,经过这些方案和训练周期的调整,目前我最终获得了约 5% 的速度提升。 Torchao 在他们的论文中报告称,Llama3-8B 的 FP8 训练速度提升了 25%(相比之下,我未考虑模型容量的情况下提升了约 7.3%),这更接近我最初的预期,尽管 Llama3-8B 的模型规模要大得多。这可能并非 FP8 的终点。透过精确选择应用 FP8 的层,并更谨慎地处理网路中的数值,应该还有提升的空间。
本文为机器翻译
展示原文

Andrej Karpathy
@karpathy
02-01
nanochat can now train GPT-2 grade LLM for <<$100 (~$73, 3 hours on a single 8XH100 node).
GPT-2 is just my favorite LLM because it's the first time the LLM stack comes together in a recognizably modern form. So it has become a bit of a weird & lasting obsession of mine to train

来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享





