拋棄數據中心,這些初創正在打造AI新模型

avatar
律動
05-02

研究人員利用分佈在全球各地的 GPU 集群,同時融合私有與公開數據,成功訓練出一類新型大語言模型(LLM)——這一突破可能顛覆當前人工智能的主流構建範式。

兩家採用非傳統路徑的 AI 初創公司 Flower AI 與 Vana 聯手打造了這個名為 Collective-1 的新模型。Flower AI 開發出允許訓練任務分散至數百臺聯網計算機的技術,其方案已被多家企業用於無需集中算力或數據的 AI 模型訓練。Vana 則提供了包含 X 平臺、Reddit 及 Telegram 隱私消息在內的多元化數據源。

按現代標準衡量,Collective-1 規模較小——其 70 億參數量(這些數值共同決定了模型能力)與當今最先進模型(如支撐 ChatGPT、Claude 和 Gemini 的模型)動輒數千億的參數規模相去甚遠。

劍橋大學計算機科學家、Flower AI 聯合創始人 Nic Lane 指出,這種分佈式方法有望突破 Collective-1 的規模限制。他透露 Flower AI 正在用傳統數據訓練 300 億參數模型,並計劃今年晚些時候開發千億參數模型——接近行業領軍者的水平。"這或將徹底改變人們對 AI 的認知,我們正全力推進,"Lane 表示。這家初創公司還將圖像與音頻納入訓練,以創建多模態模型。

分佈式建模還可能重塑 AI 行業的權力格局。

當前 AI 公司構建模型依賴兩大支柱:海量訓練數據與集中在數據中心的龐大算力——這些數據中心通過超高速光纖網絡連接先進 GPU 集群。它們還嚴重依賴網絡抓取的公開數據集(儘管部分涉及版權材料),包括網頁和圖書內容。

這種模式意味著,只有財力雄厚的企業及能獲取大量高端芯片的國家,才可能開發最具價值的尖端模型。即便是 Meta 的 Llama 和深度求索的 R1 等開源模型,也出自擁有大型數據中心的企業之手。而分佈式方法讓中小企業和高校能通過整合分散資源開發生態 AI,或使缺乏傳統基礎設施的國家通過聯網多個數據中心構建更強模型。

Lane 認為 AI 產業將日益青睞突破單一數據中心侷限的新方法。"相比數據中心模式,分佈式方案能更優雅地擴展算力,"他解釋道。

安全與新興技術中心 AI 治理專家 Helen Toner 評價 Flower AI 的方案"對 AI 競爭與治理具有潛在重大意義"。她指出:"雖可能仍難匹敵最前沿技術,但作為快速跟隨策略頗具價值。"

分而治之

分佈式 AI 訓練的核心在於重構算力分配邏輯。構建大語言模型需向系統輸入海量文本,通過調整參數使其生成有效響應。傳統數據中心會將訓練任務分割到不同 GPU 執行,再定期整合為統一主模型。

新技術使得原本需在大型數據中心完成的工作,可分散到相隔數英里、僅靠普通網絡連接的硬件設備上執行。

行業巨頭也在探索分佈式學習。去年穀歌研究人員提出的"分佈式路徑組合"(DiPaCo)新框架,提升了分佈式訓練效率。而為構建 Collective-1 等模型,Lane 與中英學者聯合開發了名為 Photon 的新工具,其採用更高效的數據表徵方式和訓練共享整合方案。Lane 坦言該過程雖比傳統訓練慢,但靈活性更強,可隨時添加硬件加速訓練。

Photon 由北京郵電大學和浙江大學研究人員參與開發,上月已開源。Flower AI 的合作方 Vana 則致力於讓用戶以新方式向 AI 構建者共享個人數據——其軟件支持用戶貢獻來自 X 和 Reddit 等平臺的私有數據,並可規定使用範圍甚至獲得經濟回報。

Vana 聯合創始人 Anna Kazlauskas 表示,此舉旨在挖掘未開發數據潛力,同時賦予用戶更多控制權。"這些通常無法進入 AI 模型的非公開數據,首次被用於基礎模型訓練,且用戶可擁有其數據所創模型的權益,"她強調。

倫敦大學學院計算機科學家 Mirco Musolesi 指出,分佈式訓練的關鍵價值在於解鎖新型數據:"將其應用於前沿模型,可讓 AI 產業利用醫療、金融等領域的分散敏感數據訓練,同時規避數據集中化風險。"

歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方賬號:https://twitter.com/BlockBeatsAsia

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論