这些初创公司正在构建无需数据中心的先进人工智能模型

avatar
WIRED
05-01
本文为机器翻译
展示原文

研究人员利用遍布全球的GPU训练了一种新型大型语言模型 (LLM) ,并输入了私人和公共数据——这一举措表明构建人工智能的主流方式可能会被颠覆。

Flower AIVana是两家追求以非常规方式构建人工智能的初创公司,它们共同创建了名为 Collective-1 的新模型。

Flower 发明的技术可以将训练分散到数百台通过互联网连接的计算机上。该公司的技术已被一些公司用于训练人工智能模型,而无需集中计算资源或数据。Vana 提供的数据源包括来自 X、Reddit 和 Telegram 的私信。

按照现代标准,Collective-1 规模很小,只有 70 亿个参数(这些参数值共同赋予了模型能力),而当今最先进的模型(例如支持ChatGPTClaudeGemini等程序的模型)则有数千亿个参数。

剑桥大学计算机科学家、Flower AI 联合创始人 Nic Lane 表示,这种分布式方法有望远远超越 Collective-1 的规模。Lane 补充说,Flower AI 正在使用传统数据训练一个包含 300 亿个参数的模型,并计划在今年晚些时候训练另一个包含 1000 亿个参数的模型——接近行业领先企业提供的规模。“这可能会彻底改变人们对人工智能的看法,所以我们正在努力实现这一目标,”Lane 说。他还表示,这家初创公司还在将图像和音频融入训练中,以创建多模态模型。

分布式模型构建也可能扰乱塑造人工智能行业的权力动态。

目前,人工智能公司通过将海量训练数据与集中于数据中心的海量计算能力相结合来构建模型。这些数据中心配备了先进的 GPU,并通过超高速光纤电缆连接在一起。他们还严重依赖于通过抓取可公开访问(尽管有时受版权保护)的材料(包括网站和书籍)创建的数据集。

这种方法意味着,只有最富有的公司和拥有大量最强大芯片的国家,才能开发出最强大、最有价值的模型。即使是像Meta 的 LlamaDeepSeek 的 R1这样的开源模型,也是由拥有大型数据中心的公司构建的。分布式方法可以让小型公司和大学通过汇集不同的资源来构建先进的人工智能。或者,它可以让缺乏传统基础设施的国家将多个数据中心联网,从而构建更强大的模型。

Lane 相信,人工智能行业将越来越多地寻求新的方法,让训练能够突破单个数据中心的限制。他表示,分布式方法“能够让你比数据中心模型更优雅地扩展计算能力”。

安全与新兴技术中心的人工智能治理专家海伦·托纳 (Helen Toner) 表示,Flower AI 的方法“很有趣,而且可能与人工智能竞争和治理息息相关”。托纳说:“它或许仍将难以跟上前沿技术,但可能成为一种有趣的快速跟随者方法。”

分布式人工智能训练需要重新思考构建强大人工智能系统所需的计算划分方式。创建 LLM 需要将大量文本输入模型,该模型会调整其参数,以便对提示做出有用的响应。在数据中心内部,训练过程被划分,以便各个部分可以在不同的 GPU 上运行,然后定期合并为一个主模型。

新方法允许通常在大型数据中心内完成的工作在距离数英里且通过相对较慢或不稳定的互联网连接连接的硬件上执行。

一些大型企业也在探索分布式学习。去年,谷歌的研究人员展示了一种新的计算划分和合并方案,称为分布式路径组合(DiPaCo),该方案可以实现更高效的分布式学习。

为了构建 Collective-1 和其他法学硕士项目,Lane 与英国和中国的学术合作伙伴开发了一款名为 Photon 的新工具,以提高分布式训练的效率。Lane 表示,Photon 改进了谷歌的方法,提供了一种更高效的模型数据表示方法,以及更高效的训练共享和整合方案。Lane 表示,该流程比传统训练速度慢,但更灵活,可以添加新硬件来加速训练。

Photon 是由北京邮电大学和浙江大学的研究人员合作开发的。该团队上个月以开源许可证的形式发布了该工具,允许任何人使用该方法。

Flower AI 在 Collective-1 的构建过程中与 Vana 合作,正在开发用户与 AI 开发者共享个人数据的新方式。Vana 的软件允许用户从 X 和 Reddit 等平台贡献私人数据,用于训练大型语言模型,并可能指定允许的最终用途,甚至可能从他们的贡献中获得经济利益。

Vana 联合创始人 Anna Kazlauskas 表示,他们的想法是将尚未开发的数据用于 AI 训练,并让用户更好地控制其信息在 AI 中的使用方式。“这些数据通常无法被纳入 AI 模型,因为它们并非公开可用,”Kazlauskas 说道,“而且这是首次使用用户直接贡献的数据来训练基础模型,用户也拥有了他们所创建 AI 模型的所有权。”

伦敦大学学院计算机科学家米尔科·穆索莱西 (Mirco Musolesi) 表示,分布式人工智能训练方法的一个关键优势很可能在于它能够解锁新型数据。“将其扩展到前沿模型,将使人工智能行业能够利用大量去中心化且隐私敏感的数据(例如医疗保健和金融领域的数据)进行训练,而无需承担数据集中化带来的风险,”他说道。

你对分布式机器学习有什么看法?你会把你的数据贡献给像 Collective-1 这样的模型吗?请发送电子邮件至hello@wired.com或在下方评论区留言告诉我。

相关赛道:
来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
2
收藏
评论