研究人員利用遍佈全球的GPU訓練了一種新型大型語言模型 (LLM) ,並輸入了私人和公共數據——這一舉措表明構建人工智能的主流方式可能會被顛覆。
Flower AI和Vana是兩家追求以非常規方式構建人工智能的初創公司,它們共同創建了名為 Collective-1 的新模型。
Flower 發明的技術可以將訓練分散到數百臺通過互聯網連接的計算機上。該公司的技術已被一些公司用於訓練人工智能模型,而無需集中計算資源或數據。Vana 提供的數據源包括來自 X、Reddit 和 Telegram 的私信。
按照現代標準,Collective-1 規模很小,只有 70 億個參數(這些參數值共同賦予了模型能力),而當今最先進的模型(例如支持ChatGPT 、 Claude和Gemini等程序的模型)則有數千億個參數。
劍橋大學計算機科學家、Flower AI 聯合創始人 Nic Lane 表示,這種分佈式方法有望遠遠超越 Collective-1 的規模。Lane 補充說,Flower AI 正在使用傳統數據訓練一個包含 300 億個參數的模型,並計劃在今年晚些時候訓練另一個包含 1000 億個參數的模型——接近行業領先企業提供的規模。“這可能會徹底改變人們對人工智能的看法,所以我們正在努力實現這一目標,”Lane 說。他還表示,這家初創公司還在將圖像和音頻融入訓練中,以創建多模態模型。
分佈式模型構建也可能擾亂塑造人工智能行業的權力動態。
目前,人工智能公司通過將海量訓練數據與集中於數據中心的海量計算能力相結合來構建模型。這些數據中心配備了先進的 GPU,並通過超高速光纖電纜連接在一起。他們還嚴重依賴於通過抓取可公開訪問(儘管有時受版權保護)的材料(包括網站和書籍)創建的數據集。
這種方法意味著,只有最富有的公司和擁有大量最強大芯片的國家,才能開發出最強大、最有價值的模型。即使是像Meta 的 Llama和DeepSeek 的 R1這樣的開源模型,也是由擁有大型數據中心的公司構建的。分佈式方法可以讓小型公司和大學通過彙集不同的資源來構建先進的人工智能。或者,它可以讓缺乏傳統基礎設施的國家將多個數據中心聯網,從而構建更強大的模型。
Lane 相信,人工智能行業將越來越多地尋求新的方法,讓訓練能夠突破單個數據中心的限制。他表示,分佈式方法“能夠讓你比數據中心模型更優雅地擴展計算能力”。
安全與新興技術中心的人工智能治理專家海倫·託納 (Helen Toner) 表示,Flower AI 的方法“很有趣,而且可能與人工智能競爭和治理息息相關”。託納說:“它或許仍將難以跟上前沿技術,但可能成為一種有趣的快速跟隨者方法。”
分佈式人工智能訓練需要重新思考構建強大人工智能系統所需的計算劃分方式。創建 LLM 需要將大量文本輸入模型,該模型會調整其參數,以便對提示做出有用的響應。在數據中心內部,訓練過程被劃分,以便各個部分可以在不同的 GPU 上運行,然後定期合併為一個主模型。
新方法允許通常在大型數據中心內完成的工作在距離數英里且通過相對較慢或不穩定的互聯網連接連接的硬件上執行。
一些大型企業也在探索分佈式學習。去年,谷歌的研究人員展示了一種新的計算劃分和合並方案,稱為分佈式路徑組合(DiPaCo),該方案可以實現更高效的分佈式學習。
為了構建 Collective-1 和其他法學碩士項目,Lane 與英國和中國的學術合作伙伴開發了一款名為 Photon 的新工具,以提高分佈式訓練的效率。Lane 表示,Photon 改進了谷歌的方法,提供了一種更高效的模型數據表示方法,以及更高效的訓練共享和整合方案。Lane 表示,該流程比傳統訓練速度慢,但更靈活,可以添加新硬件來加速訓練。
Photon 是由北京郵電大學和浙江大學的研究人員合作開發的。該團隊上個月以開源許可證的形式發佈了該工具,允許任何人使用該方法。
Flower AI 在 Collective-1 的構建過程中與 Vana 合作,正在開發用戶與 AI 開發者共享個人數據的新方式。Vana 的軟件允許用戶從 X 和 Reddit 等平臺貢獻私人數據,用於訓練大型語言模型,並可能指定允許的最終用途,甚至可能從他們的貢獻中獲得經濟利益。
Vana 聯合創始人 Anna Kazlauskas 表示,他們的想法是將尚未開發的數據用於 AI 訓練,並讓用戶更好地控制其信息在 AI 中的使用方式。“這些數據通常無法被納入 AI 模型,因為它們並非公開可用,”Kazlauskas 說道,“而且這是首次使用用戶直接貢獻的數據來訓練基礎模型,用戶也擁有了他們所創建 AI 模型的所有權。”
倫敦大學學院計算機科學家米爾科·穆索萊西 (Mirco Musolesi) 表示,分佈式人工智能訓練方法的一個關鍵優勢很可能在於它能夠解鎖新型數據。“將其擴展到前沿模型,將使人工智能行業能夠利用大量去中心化且隱私敏感的數據(例如醫療保健和金融領域的數據)進行訓練,而無需承擔數據集中化帶來的風險,”他說道。
你對分佈式機器學習有什麼看法?你會把你的數據貢獻給像 Collective-1 這樣的模型嗎?請發送電子郵件至hello@wired.com或在下方評論區留言告訴我。





