解析分散式培训

本文为机器翻译
展示原文

我去哪儿了?

首先,要特别感谢sam lehmanrodeohausybsmacronanibuyrugs的所有评论、编辑、反馈和建议 - 你们帮助实现了这个目标,我真的很感激。

此外,其中一些 arxiv 链接会以基于浏览器的 PDF 形式打开,因此如果您不想处理这种情况,这只是一个警告。

写这篇文章时,距离我上次发帖已经过去三个月了。从那时起我都在忙些什么呢?

我不知道。我一直在阅读大量书籍,每周锻炼五天,充分利用大学最后一个学期的时间。

每当我有一两个月没有写过长篇报告时,我的心里就会有点焦躁,所以这是我尝试回到基线并重新回到正轨的尝试。

如果您无法从标题判断,这是一份主要关于分布式/分散式培训的报告,附带一些关于人工智能领域正在发生的事情的信息,以及一些关于所有这些如何结合在一起/为什么我认为它有价值的评论。

这不会像有关该主题的其他报告那样技术性强,而且我确信它也不会完全准确。

然而,它将是您能找到的有关该主题的最易理解的报告。

这里几乎所有内容都进行了简短详细的解释,如果没有,那么有一个或两个超链接提供更详细的解释。

这是一份关于分散式和分布式培训的报告,听起来可能可以互换,但这是两件截然不同的事情。

当人工智能实验室着手培训法学硕士 (LLM) 时,他们的任务是管理一系列有助于完成和运作法学硕士 (LLM) 的义务。

研究人员和开发人员必须兼顾数据收集/管理预训练/微调后训练强化学习以及配置/部署

这并不是构建基础模型的全部内容,但我以自己的方式将其拆分,希望更容易理解。您需要知道的是,LLM 会接收大量数据,团队会决定模型的特定架构,然后进行训练和改进,最后在模型发布之前进行一些后期训练和完善。哦,大多数 LLM 都使用转换器架构

这一过程通常可称为集中培训

Sam Lehman 将分布式训练描述为“通过物理上不共置的硬件进行训练的过程”,而去中心化训练类似于分布式训练,因为用于预训练的硬件不共置,但不同之处在于所使用的硬件是异构的且不受信任。”

之所以做出这种区分,是因为尽管本报告的大部分内容都提到了分布式训练,但使用加密激励(即代币)来创建和扩展分布式训练可以带来巨大的价值。这可能是大多数读者关心的问题。

向网络贡献者支付代币以换取工作这一概念非常出名且有据可查。

即使不看 DePIN(去中心化物理基础设施网络)中更复杂的例子,你也可以在比特币的 PoW 模型中找到这一点。

很难说这种模式是否适用于大多数DePIN 项目,但在我看来,去中心化培训具有足够高的意义和潜在的巨大经济价值,因此这种行为可以长期受到激励。与 DePIN 旗下的许多其他项目相比,去中心化培训无疑是最重要的。

更简单地说,我并不担心一个假设的场景,即一个加密项目奇迹般地实现了 AGI,而人们不想购买代币或做出贡献。我见过人们在赌注无限低的情况下表现更糟。

只是想把这个问题解决掉,别担心——报告中会详细阐述差异,所以如果你现在还没有完整的了解也没关系。

我写这篇文章时很开心,希望你们读起来也一样开心。出于某种原因,我做这些事都是免费的。没有人付钱让我做这些事。

如果您喜欢的话,请考虑订阅此博客(仍然免费)和/或与朋友分享或在 X 上重新发布。

玩得开心。

定义去中心化人工智能并阐明分布式训练价值主张

本节的重点:

* 注意:如果您阅读这篇文章只是为了了解有关分布式/分散式训练的更多信息,那么您可以跳过本节。*

如果你不写关于加密的内容,或者更具体地说,不写关于去中心化人工智能(简称DeAI )的内容,你就无法写关于去中心化训练的内容。

我原本将此部分放在报告的末尾,但决定最好将其移到最前面,放在所有无聊内容之前。

想要 TLDR 吗?

分布式训练并不是一个伪装成商业机会的复杂科学项目,而是一套越来越可行的步骤,可以彻底改变我们训练人工智能模型的方式。

不仅如此,分布式训练还提供了一种替代方案,可以避免: a)大型技术公司在数据中心上投入的数千亿美元的资本支出, b)为本地化集群设计的大量令人讨厌的中间件,以及c)最终为小人物(我们所有人)提供了一个构建 ASI 的机会。

尽管广大加密社区都喜欢说相反的话,但现实是,加密对人工智能的需求远远超过人工智能目前对加密的需求。我这样说是什么意思呢?

有些人可能会说,这是因为加密货币吸引的开发人才质量低于传统人工智能行业,从而导致创意和产品缺乏野心,且总体上较为平淡。

其他人可能会说,这是因为所有不是比特币或门罗币的代币都是虚假的,所以 DeAI 也不例外。你经常听到这个说法。它在讨论 memecoin 估值时最常用,但有时它延伸到讨论 DeFi 或 DePIN 等更具粘性的领域以及存在于这些加密货币子集中的应用程序。

众所周知,直到最近,DeAI 领域和无数公司都已经筹集了风险投资,并承诺通过某种新颖的加密增强技术来实现 AI 的去中心化,从而实现创新。

Galaxy的这张市场地图在 2024 年第一季度就已经很拥挤了,很难将所有协议都纳入其中。如果今天再制作一张,你甚至无法容纳其中的 70%,更不用说以一种视觉上吸引人的方式将它们全部塞进去了:

我们从这些团队中看到的大部分内容都可以看作是对未来的一种准备——未来的人工智能将与区块链进行交互,在这个世界里,我们突然需要所有这些与人工智能相关的、支持加密的技术。

现在怎么样?

当我说没有太多创新时,我主要是说没有发布任何对 DeAI 的采用或非加密 AI 行业产生影响的东西。这很好,而且目的不是要放弃这些项目,因为最终可能会有少数项目获得采用。

我的意思是,作为一个领域,DeAI 正在无所事事、等待,而不是采取行动

这些协议依赖于这样一个事实:AI 被融入到了技术和商业的各个方面——顺便说一句,这并不是一个糟糕的选择,只要看看a16z 的数百篇企业 AI 博客文章中的一篇就可以了——但却很难清楚地表达出他们为什么要筹集资金和/或(主要是)为什么他们与当今的 DeAI 行业相关。

我认为 DeAI 尚未经历任何类似的“起飞”,因为a)全球绝大多数人口尚未使用区块链, b) DeAI 正在解决的一些问题目前并不完全必要,以及c)许多提出的理念根本不可能实现

最重要的是,我相信 DeAI 并没有引起我们圈子之外的太多关注,因为除了 memecoin 和稳定币之外,让人们对任何涉及加密的东西产生兴趣都非常困难

这并不是对行业的打击,只是一种观察。而且这是非常明显的。即使是像 Circle 这样受到普遍尊重(信任?)的公司,也难以承受可能以 50 亿美元估值进行 IPO 的暗示

但在我看来,第三点(提出的想法不可能实现)在 DeAI 短暂的生命周期中对其造成的损害最大。

这只是一个例子,对于大多数 DeAI 研究人员或一般怀疑论者来说应该相当清楚,但如果你试图创建完全链上、完全自主的代理,无需人工中介即可进行交互,那么实际上甚至没有一个集中的推论可以对你的进展进行基准测试。

事实上,在区块链之外,甚至还没有一个完全自主的代理能够在没有人类中介的情况下持续互动。这就像在人类登陆火星之前就试图在火星上建造房屋一样。

完全自主的代理尚未发布,甚至还没有被主要人工智能实验室过度预告,但我们看到 ai16z 和 virtuals 等货币的估值分别达到26 亿美元和 46 亿美元峰值

有许多代理框架 这些项目也推动了比特币的发展,但收效甚微(在我看来)。我并不是想表现得太消极——因为交易这些代币一段时间有趣——但这些对非加密 AI 行业实际上没有任何贡献。

这些 web3 团队提出的框架尚未得到 Anthropic 或 OpenAI 甚至更广泛的开源社区的采用。

比没有获得关注更糟糕的是,一个潜在的丑陋事实是,所有这些滑稽动作都只是重申了web2/TradFi/ 大型科技公司的集体信念,即加密货币仍然是一个根本不严肃的领域。

也许框架并不糟糕,只是因为这些项目推出了代币,所以营销很差——这对行业外的人来说可能是一个负面因素——但很难相信如此创新的东西不会仅仅因为创始团队决定推出代币而被采用。

我认识的每个经纪人都知道我讨厌经纪人。”—— Ye原名 Kanye West 的艺术家

从一些基本的挖掘和一般的在线交互来看, MCP模型上下文协议)等东西的采用率远高于这些框架,甚至有人声称MCP 已经获胜。这是为什么呢?因为它有效,它(大部分)是免费的,人们喜欢可以融入日常生活的软件,以及他们已经使用的应用程序。

人们从代理框架中得到了什么?通常,实际上只有“构建”或部署更多代理的能力,而这种描述在 99% 的 web3 案例中已经很夸张了。大多数人不想购买我们的代币,那么你认为他们会从部署与工作流无关、与推出新代币有关的代理中获得什么价值呢?

* 注:@diego_defai 没有贬低的意思,只是你的帖子最容易找到,而且最先出现。 *

但是,分散式人工智能到底什么?为什么我们被告知需要它?

Lucas Tcheyan 在 2024 年写道:“加密技术和人工智能交叉领域的持续实验和最终应用背后的驱动力与加密技术许多最有前景的用例的驱动力相同——访问无需许可和无需信任的协调层,以更好地促进价值转移

Sam Lehman 在他的报告中写到了关于加密激励的部分,他指出“加密已经表明,去中心化网络可以通过提供精心设计的激励措施实现大规模。 ”我的意思是,看看比特币就知道了。

即使我们可以彼此坦诚相待并承认比特币模型在纸面上至少有点奇怪但这并不能否认这样一个事实:净新激励(通过工作获得 BTC)改变了世界,并推动我们进入了美国政府积极探索 BTC 战略基金的时间线。

这种思维方式也是去中心化物理基础设施(简称 DePIN)背后的指导信念或运作方式(如果我可以这样想的话), 0xsmac和我早在 2024 年 9 月就对此进行了描述。

我们对去中心化人工智能有几种不同的定义,但没有一个是明确的。考虑到这是一个新兴行业中的新兴领域,这是可以理解的,但我们至少应该能够确定去中心化人工智能的 5W 要素 -什么何时何地为什么

谁会使用它?通过整合加密货币可以更好地解决哪些问题?什么时候会使用它?这样的产品在哪里会吸引最多的关注或最大的用户群?为什么它需要风险投资(开玩笑的)和/或为什么它需要存在?

在我看来,Prime Intellect 的Vincent Weisser简明扼要地列出了几乎所有人都能理解的挑战和问题领域:

Vincent 还列出了 DeAI 的潜在用例以及可以/应该构建的内容。我不会一一列举,但它几乎涵盖了堆栈的每一层,并以一种前所未有的方式总结了该领域。

分布式(或 P2P)计算网络、分散/联合训练方法、 分散推理、链上代理、数据来源、链上可验证性以及少数其他。

DeAI 不仅仅是训练模型的计算、被大型实验室购买的抓取数据或验证模型输出是否正确的服务。它是一个完整的产品创新生态系统,旨在颠覆一个几乎完全适合去中心化的行业。

似乎业内大多数人都被人工智能去中心化的挑战所吸引,因为他们喜欢去中心化,但更重要的是,这对很多人来说是一个紧迫的问题。

如果 AGI 或 ASI 最终落入单一实体手中,那就不太公平了。

这太糟糕了。

我们中没有人能够充分利用这些超级智能的数字外星人,因为公司将拥有用于创建这些模型的模型权重代码定制训练方法技术

假设像 OpenAI 或 Deepseek 这样的人首先发现它,它实际上也会成为重大的国家安全威胁(如果还没有的话)。

如果分布式训练能够大规模发挥作用(我们已经看到了),并且与其他 DeAI 技术(如零知识证明或其他隐私保护机制)相结合,也许我们就有很好的机会抵御超级智能的垄断。

在分布式训练研究人员不断理解一套全新的扩展定律并随后扩大分布式训练操作的世界中,我们不太可能回头并优化过去更加本地化的训练方法。

如果您是大型实验室或像 Google / Meta / Amazon 这样的大型科技公司,那么研究分布式训练并将其作为优先事项对您最有利。Dylan Patel在 2024 年谈到了这一点,但如果您仍想进一步确认大型科技公司和主要参与者正在积极探索这一点,请考虑由 DeepMind( 2014 年被 Google 以 6.5 亿美元收购)撰写的 DiLoCo 论文。还值得一提的是,Dylan Patel 在这里写了关于多数据中心训练的文章。

Rodeo向我指出了一些现在回想起来非常明显的事实——世界上最聪明的人和最大的科技公司正在积极寻求如何通过去中心化的原则创建一个庞大的节点网络

这听起来是不是很熟悉?

如果你必须争论比特币在其近二十年的存在中所做的事情,那就证明当一个由具有一致利益的个人组成的去中心化网络获得适当的激励时,合法的变革就会发生。

首先,我们实现了货币去中心化,现在我们可以利用这个实验来实现情报去中心化。在这个领域工作的人都面临巨大的困难,但在比特币的早期,你也可以提出同样的论点。

我们可以将比特币采用的早期阶段与当前的 DeAI 社区进行比较,尽管它们之间存在许多差异,最显著的就是更广泛、更可证明的市场需求,以及风险投资的存在,但这并不意味着我们像比特币一样处于“早期”。

分布式/多数据中心培训的好处并不仅限于大型实验室,事实上恰恰相反。

分布式训练等技术创新使全球各地的个人群体能够汇集资源并训练竞争模型。最大限度地减少通信要求只是其中的一部分。

那么如何利用消费级硬件来降低在家训练的门槛呢?

那么,如果使用代币作为引导创新的初始阶段,并且不需要大量的资本支出,会怎么样呢?

稍后将在对Exo Labs工作的一些简短分析中介绍这一点,但这里有Alex Cheema 最近发布的一条推文,其中结合 Apple 的 M3 Ultras 和 Meta 的新款 Llama 型号描述了这一确切概念。

分布式训练不仅可以解锁更高效的训练,还可以让之前无法研究前沿模型的研究人员、业余爱好者和爱好者组成的全球社区受益。当拥有数百甚至数千个 GPU 的几十个人获得与集中式前沿实验室竞争的黄金门票时会发生什么?

一些人工智能基础知识、计算和缩放定律的概述

本节的重点:

  • 现代人工智能训练依赖 GPU 实现数据并行,这使其成为行业瓶颈,同时也是一种非常热门的商品

  • 增加计算和数据通常会带来更高的性能,但扩展计算集群规模也会带来一系列挑战

  • DeepSeek 的进展展示了模型创建方面的创造力(而不仅仅是更多的 GPU),并证明你可以通过一些跳出框框的思维以更低的成本获得最先进的结果

  • 集中式培训非常昂贵且困难;分布式培训也是如此,但如果正确执行,将产生更多积极的外部效应

最好先重新认识一下人工智能行业正在发生的事情,并以此作为后续更复杂主题的起点。

希望大多数读者能够了解最近的法学硕士 ( Sonnet 3.7、GPT 4.5、Grok 3 )、 七雄争霸的人工智能支出以及几乎每周发布的功能越来越强大的模型的最新动态。

有一些很好的报告描述了培养法学硕士所需的工作,因此我将引用其中一些:

培养法学硕士是一项资本密集型项目,下面您可以看到大型科技公司在基础设施上投入了多少资金。稍后将详细介绍,但大部分(如果不是全部)资金都用于 GPU、数据中心建设、维护和其他对最终产品有贡献的硬件要求。

顺便说一句,此名单仅限于三家大型科技公司:

您可能想知道为什么使用 GPU 而不是 CPU,甚至想知道两者之间有什么区别。

Citrini 强调,GPU 和 CPU 之间的区别在于计算时采用的并行类型。GPU 针对所谓的数据并行进行了优化,而 CPU 更擅长任务并行。

机器学习行业意识到,最初为渲染图形而设计的 GPU 也非常擅长快速执行计算。我不会详细讨论它们的速度,但它们的速度非常快。

数据并行是“对多个数据元素并行执行相同操作”的过程,而任务并行是“对相同或不同的数据执行不同的操作”。

对于训练 LLM,数据并行性更有意义,因为解析大型数据集并对其执行简单操作具有高度重复性,这就是 GPU 成为并保持如此热门商品的原因。

任务并行之类的东西是没有意义的,因为人工智能数据集是高度可变的——你不会想在庞大的数据集中对单个数据进行过度索引,因为你永远无法完成模型的训练,或者这会花费太长时间,从而成本高昂和/或效率极低。

人们喜欢说“计算”这个词,他们说的就是 GPU。如果有人问“ Meta 有多少计算能力”或“ Elon 明年在计算方面投入了多少”,他们说的就是 GPU。

卡内基基金会撰写了一篇很好的总结,介绍了计算的含义、工作原理以及它为何如此重要。如果您仍然有点迷茫,并且希望在阅读本文的其余部分之前有一个更全面的概述,那么这篇文章将很有帮助。

计算一直是人工智能实验室关注的重点,因为存在所谓的缩放定律,特别是性能更高的模型与用于训练它们的大量 GPU和数据之间的幂律关系或相关性。

确切地说,这里引用的具体定律被称为训练前缩放定律。下面的图表略微超出了这一点,但我发现它有助于我们了解目前模型开发的状况以及未来的发展方向:

简短地说,OpenAI 2020 年关于缩放定律的论文据说是对计算、数据和模型参数数量之间关系的更基础的分析之一。

缩放定律已经成立。

很难找到较新模型的准确 GPU 数量,但以下是对多年来 OpenAI 某些模型的缩放定律的粗略估计:

  • GPT-1 :1.17 亿个参数和约 8 个 Nvidia V100

  • GPT-2 :15 亿个参数和数十到数百个 Nvidia V100

  • GPT-3 :175b 个参数和 1k-2k+ 个 Nvidia V100

  • GPT-4 :数万亿的参数和 8k-30k 个 Nvidia A100/H100

您可能还记得 Sam Altman 呼吁投入数万亿美元来建设越来越大的数据中心,或者提议的 5000 亿美元星际之门法案,甚至扎克伯格的2GW+数据中心雄心——这些举措都源于(人们认为)对极其庞大、耗电巨大的数据中心的需求。

事实上,3 月 31 日 OpenAI 就宣布完成新一轮融资,获得 400 亿美元的资本注入(其中 75% 来自孙正义和软银)。

由于缩放定律长期存在,每个想要构建良好模型的人都被迫积累越来越的计算量,以及性能更高的计算类型(即更好的 GPU)。其中大部分来自 Nvidia,但值得探索 Apple Silicon 的潜力

每个人都陷入了一场大规模的竞相购买这些 GPU 并训练更大的模型的竞争中,但事情变得复杂了。使用更多 GPU 训练模型时,模型会变得更智能,但由于干扰、错误、冷却要求、互连和一系列其他问题,训练模型变得越来越困难。

后面的部分将介绍更多细节,但大多数训练算法已经非常强大,瓶颈几乎完全存在于实施和扩展阶段。已经可以实现完全分布式训练运行,唯一的挑战仍然是将其从 0.5 变为 1。

分布式训练实际上是解决这一问题的一步,这将是巨大的进步。

如果我们最终能够在来自不同大洲和国家的多个不同数据中心训练最先进的模型,并且没有这些负担,我们就可以以更少的麻烦和更高性能的训练运行获得更好的模型

这就是它如此重要的原因——如果证明可扩展,它可以与集中式培训一样好,但如果成功,它在几乎所有其他方面都比集中式培训更好。如果你仔细想想,这些集中式公司和实验室必须将其运营转向分布式培训的趋势,而不是相反。

如果您已经拥有一个大型数据中心,那么您很难逆向而行并重新设计基础设施以适应分布式训练方法。但如果您是一个规模较小、更精干的研究团队,从第一天开始就致力于分布式训练的开创性工作,那么您就更有能力从这项技术中获益。

Epoch AI 在 2024 年撰写了一份关于缩减规模的报告,不仅描述了传统的(以计算为中心)的缩减规律,还描述了未来在预训练运行中可能困扰实验室的一些其他潜在瓶颈(将会介绍)。

这里需要强调的最重要的一点是,GPU 的数量或数据中心的规模并不是唯一的瓶颈。除了获取这些 GPU(这已经够难的了)之外,实验室还需要应对功率限制、延迟壁垒、芯片制造能力,甚至地缘政治紧张局势。

这只是集中式训练运行所关注问题的清单——分布式训练有其自身的一系列问题,主要是解决沟通瓶颈和扩展训练运行。

许多其他约束与分布式训练相关,因为显而易见的现实是,分布式训练本质上对地理、位置以及(不确定这是否是一个词)局部性等因素很敏感。

分布式训练不仅仅是研究如何训练位于多个位置的模型,而是一个包罗万象的领域,它解决集中式训练中最困难的问题,并将其与分布式训练研究中更具挑战性的、未经证实的理论相结合。

这就是这个话题对我如此突出的原因之一——风险非常高,而且这是许多学科重叠的领域之一,几乎不可能全面了解正在发生的事情。

如果你考虑到技术在时间上的重大飞跃,分布式训练就符合要求并且值得获得成功,即使目前我没有任何代币可以推动这一进程。

关于缩放定律“终结”或经历收益递减的想法一直受到很大争议,而我实际上无权发表意见,因为在大多数情况下,没有人完全确定。

除了训练前的缩放定律之外,还有很多关于训练后测试时计算(TTC) 定律的内容。训练后涉及微调、强化学习等主题,以及下一节中介绍的一些其他更高级的机制。

另一方面,TTC 则复杂得多。

但我是写这些的人吗?写这份报告简直是筋疲力尽,因为感觉我总是前进一步,后退三步,努力理解新信息,或者发现我写了一整节,但不幸的是,我把所有的内容都搞错了。我非常努力,但原因是什么呢?

我写这些甚至没赚到任何钱。

简而言之,由于 OpenAI 的“o”模型相对于 GPT-4 和前几年发布的非推理模型的惊人改进率,后训练定律目前非常流行:

后训练研究目前非常火爆,因为它确实有效(当然),而且它是一种更具成本效益的扩展模型性能的方法,前提是你已经拥有 GPU 的大型实验室。简而言之,后训练主要具有附加作用,并有可能重新定义大型实验室如何推动 AGI。

我提到强化学习与推理模型的结合确实挑战了业界对扩展定律的认知,但它并不一定驳倒任何反对这些扩展定律的论点。

如果说后训练方面取得的进步有什么意义的话,那就是它只会让整个模型创建生命周期受益,因为这些新数据最终可以输入到更好的模型中。如果现在还没有实现这一点,那么未来 99% 的模型创建和管理创新可能都来自后训练优化。

但现在就够了。我将回顾一下预训练过程以及 GPU 之外的一些更关键的功能。

计算对于训练运行显然至关重要,但正如我之前暗示的那样,还有一组完全独立的存储内存能源网络要求与 GPU 一样重要。

  • 能源:大型数据中心显然需要大量能源,但冷却基础设施又如何呢?如何实际满足必要的能源需求并确保持续的电力输出呢?

  • 贮存 LLM 由大型数据集和参数组成,因此你可以想象它的存储要求很高。

  • 记忆 预训练运行可能需要一段时间,并且需要适当的内存要求来维护 GPU 和节点之间的内存。

  • 网络 Citrini 的互连报告为您提供了比您需要了解的有关网络的更多信息,但数据中心需要高速和低延迟的互连才能真正促进运行。

所有这些模型都是用互联的、大型的、地理位置受限的集群进行预先训练的,这些集群消耗大量能源,并采用了昂贵且功能强大的技术。

随着各大企业纷纷加入超级智能竞赛,数百亿美元资金已用于数据中心建设、实验室融资以及无数其他支出。

但今年早些时候情况变得复杂起来。

DeepSeek-R1 及其配套论文于 2025 年 1 月 22 日发布,在大家开始关注之前,大概有一周的时间没有引起人们的注意。除非你一直处于数字时代,或者短期记忆力很差,否则 R1 对业内几乎所有人来说都是一记重磅炸弹。

据说R1 使用了 2,048 个 Nvidia H800 GPU 进行训练,假设每块 GPU 的成本为 30,000 美元,那么这些 GPU 的价值约为 6100 万美元——根据 DeepSeek 的购买地点和时间,误差在 5,000 美元左右。然而,上述基于众多互联网来源的报告与半分析报告也有差异,后者估计有 10,000 块 H800 和 10,000 块 H100。

我认为,无论训练模型所用的 GPU 数量有多少,DeepSeek 所取得的成就才是真正的成功。这并不是所谓的削减成本或规避 GPU 进口法规的能力,而是模型构建和强化学习进步方面的创造力

DeepSeek 的 GPU 恶作剧新闻让很多人感到震惊,因为在过去的 2-3 年里,每个主要实验室都优先积累越来越多的计算能力,而且几乎没有迹象表明这不是构建高性能模型的“正确”方式。DeepSeek 的流程和策略将在下一节中详细介绍。

以下是其他一些基础模型及其各自的成本,不考虑训练时间或预训练过程中的其他障碍:

  • OpenAI 的GPT 4o :25,000 个 Nvidia A100 @ $8-20k/GPU

  • xAI 的Grok 2 :20,000 个 Nvidia H100 @ $25-30k/GPU

  • Google 的Gemini 2.0 :100,000 个 Trillium 芯片,每个芯片每小时 2.7 美元

  • Meta 的Llama 3.1 :16,000 个 Nvidia H100 GPU

  • Anthropic 的Claude 3.5 Sonnet :未指定但估计有数万首

  • OpenAI 的GPT o1 :未指定但据称有很多 GPU

* 注意:我想在这里添加引文,但使用了太多不同的资源,而且当我编辑这篇文章时,回头查找这些资源会花费太多精力。Sam Lehman 还向我指出,员工工资 + 薪酬可以计入这些成本,因此如果您想探索培训运行的绝对成本,这一点值得考虑。*

尽管我们没有某些旧模型的成本或 GPU 数量(可以理解,也不知道许多新模型,如 Claude 3.7 和 GPT 4.5),但我们可以假设它们遵循了 AI 的扩展定律,并且积累了越来越多的 GPU 或性能更高的 GPU。

值得一提的是,并非所有的预训练运行都是平等的。

Llama-3 技术报告是一个很好的资源,可以帮助我们了解其中涉及的变量数量,下表显示了一些简单的事情如何很容易阻碍运行或产生导致训练时间闲置的问题。

从列表中可以看出,这可能是与 GPU、网络、依赖性、维护甚至未知因素相关的问题 - 你不能排除任何可能性。仅仅拥有 GPU 并不能让你获得完美预训练运行的黄金门票。

我可以花些时间来研究一些用于衡量训练效率的拟议方程,如MFUMAMMFSFU连续性,但 Ronan 在这方面已经做得很好,这可能会使这份报告拖延得比它应该的更长。

TLDR?

许多不同的变量决定了训练运行的效率,包括软件和硬件,但其中大部分取决于 FLOP 并且需要很长的时间来测量它。

无论如何。

下一部分将扩展我们对 LLM 的了解并剖析培训过程,特别是培训后阶段以及此处发生的一些创新。

探索推理模型和强化学习

本节的重点:

  • 推理模型已迅速成为新发布的最先进模型的主导结构(几乎涵盖每个实验室

  • 强化学习是一个非常技术性的问题领域,它正在迅速成为模型优化创新的主要载体之一

  • DeepSeek 做了很多令人印象深刻的事情,在许多实验室似乎停滞不前的时候,它突破了模型设计的界限,值得称赞

我们可以转向最近的流行和部署推理模型,这些模型已被证明是非常有能力的,甚至导致 Sam Altman 声称这些模型是 OpenAI 在可预见的未来( GPT-4.5之后)的重点:

推理模型是一种独特的语言模型,通过强化学习进行训练,可以执行更复杂的推理,这些模型可以在产生输出之前进行思考。这些推理模型的开发是为了更好地模拟人类以及我们在日常生活中解决问题的方式,在回答用户的查询之前,产生一个详细描述其内部想法的思维链。它看起来如下:

Sebastian Raschka 在报告中写道,改进推理模型的主要方法有两种:增加训练计算增加推理计算,这也可以称为推理时间扩展测试时间扩展,区别在于扩展是在何时完成的。在这种情况下,推理时间是指在训练完成后发生的一段时间。

Ronan 的报告强调了推理范式下扩展的一个未被充分重视的方面,引用了Prime Intellect 上 samsja的一条推文:

这是我的错,没有早点解释整个前向/后向传递的事情,但现在是用它来支持分布式训练论文的最佳时机。

当神经网络处理数据输入时,会发生前向传递,逐层进行,并从输入 → 输出向前运行模型。后向传递是测量模型输出与假定正确答案的偏差的计算,这些信息通过模型向后传递,以告知参数需要调整哪些权重。

推理模型和后训练阶段改进的有趣之处源于这样一个事实:这些过程在预训练阶段对通信的要求本质上较低。Samsja 指出,强化学习和正常训练在前向传递计数方面存在数量级差异。

这让我们想到了 DeepSeek。

DeepSeek-R1 令人震惊,因为相比之下 2,048 个 H800 显得很小,这是通过同时使用几种不同的技术实现的:

  1. 混合专家(MoE)

  2. 多头潜在注意力(MHLA)

  3. 监督微调(SFT)和强化学习(RL)

* 注意:您可能还记得我2023 年 11 月关于 Bittensor 的报告中听说过 MoE。 *

将所有这些技术结合在一起,我们得到了一个击败许多性能最强、商业上可用的 LLM 模型,这引发了人们的猜测和争论(早在 1 月份),即 DeepSeek-R1 是目前最好的先进模型:

Haus 向我介绍了 DeepSeek 实现的另一项未被充分重视的工程壮举。以下是来自其来源( Stratechery )的简短解释:

“事情是这样的:我上面解释的大量创新都是为了克服使用 H800 而不是 H100 所隐含的内存带宽不足问题。此外,如果你真的对上一个问题做了计算,你就会意识到 DeepSeek 实际上有多余的计算;这是因为 DeepSeek 实际上对每个 H800 上的 132 个处理单元中的 20 个进行了编程,专门用于管理跨芯片通信。这在 CUDA 中实际上是不可能做到的。DeepSeek 工程师不得不降级到 PTX,这是 Nvidia GPU 的低级指令集,基本上就像汇编语言一样。这是一个疯狂的优化级别,只有在使用 H800 时才有意义。”

我做了进一步的挖掘,发现这个问题非常复杂,但 DeepSeek 不仅能够在软件方面(MoE、SFT 和 RL 方面)进行创新,而且还能在极具挑战性的硬件问题上进行创新,例如从CUDA (由 Nvidia 创建的并行计算平台)进行 PTX 转换。

据我了解,大多数模型开发和 GPU 相关工作都使用 CUDA,只是因为它是与 Nvidia GPU(迄今为止需求最广泛的 GPU )一起使用的标准。

如果说 DeepSeek 能给我们带来什么教训的话,那就是难题是需要解决的,而整个行业仍在不断发现新的、更关键的难题来解决。

这一刻非常重要,因为这是人工智能社区在很长一段时间内第一次醒悟过来并意识到,仅仅向新模型投入更多计算可能并不是扩展模型性能的最佳方式。

如果在整个模型训练过程中更具创造力是开启 AGI 更可能之路的关键,那会怎样?如果秘诀不是那么明显,那会怎样?

这种逻辑最终将扩展到以分布式方式训练模型的想法,特别是挑战 GPU必须位于单一地理位置才能训练 SOTA 模型的观念,以及有关是否有必要使用大量 GPU 的一些想法,或者是否有办法将这些扩展方法结合起来并实现真正卓越的成果。

还有其他几种方法可以进一步提高推理能力,包括推理时间计算扩展、纯强化学习、RL + SFT 和纯 SFT - 我不会过多地讨论这些内容。就像我在上一节中所说的那样,我们有一些这样的扩展定律,它们都同样取得了公平的进步,而业界仍在学习如何同时理解它们。

Sebastian 提供了一份推理论文清单,展示了研究人员的创造力。为了展示这一切有多么奇怪,如果您想深入了解其中的奥秘,这里有一些片段:

  • 诸如“思考不足”之类的术语和“思维转换惩罚”之类的方法用于帮助推理模型“更好地思考”

  • 研究人员探索法学硕士的联想记忆及其对信息吸收的影响

  • 回溯方法用于帮助推理模型探索替代解决方案

介绍强化学习非常重要,它是机器学习/人工智能的一个子集,涉及代理与其环境之间的关系

强化学习是一个根据代理的行为赋予其奖励和惩罚的过程,逐渐引导代理找到正确的答案。

尽管定义指的是

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
2
收藏
1
评论