預訓練提速2到3倍,Nous新方案TST陷入「撞車」爭議
ME News 消息,5 月 14 日(UTC+8),據 動察 Beating 監測,Nous Research 發佈大模型預訓練新方案詞元疊加訓練(TST)。該方案通過在訓練前期打包壓縮相鄰詞元,能在同等計算量下將預訓練時間縮短 2 到 3 倍。 TST 包含兩個階段。在前 20% 到 40% 的訓練中,模型不再逐個讀取詞元,而是將相鄰詞元「打包」求平均值輸入,並在輸出端預測下一個包裡包含哪些詞元(不計內部順序)。之後,模型退回常規的下一個詞元預測。因為未修改底層架構,產出的模型在推理時與常規模型完全相同。該方法已在最高 100 億參數的 MoE 模型上驗證通過。 這套方案的本質是「用數據換算力」,以更快的語料消耗速度來換取計算時間的縮短。如果未來高質量文本被耗盡,其加速消耗數據的特性可能會成為短板。 另外,在論文發佈數小時後,有讀者指出 TST 的機制與 2024 年發佈的舊作《Beyond Next Token Prediction》極度相似。作者團隊隨後在 Hugging Face 坦承這是「不幸的趨同研究(convergent research)」,承諾將更新論文補充引用。 (來源:ME)
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享





