預訓練提速2到3倍，Nous新方案TST陷入「撞車」爭議

ME News 消息，5 月 14 日（UTC+8），據動察 Beating 監測，Nous Research 發佈大模型預訓練新方案詞元疊加訓練（TST）。該方案通過在訓練前期打包壓縮相鄰詞元，能在同等計算量下將預訓練時間縮短 2 到 3 倍。 TST 包含兩個階段。在前 20% 到 40% 的訓練中，模型不再逐個讀取詞元，而是將相鄰詞元「打包」求平均值輸入，並在輸出端預測下一個包裡包含哪些詞元（不計內部順序）。之後，模型退回常規的下一個詞元預測。因為未修改底層架構，產出的模型在推理時與常規模型完全相同。該方法已在最高 100 億參數的 MoE 模型上驗證通過。這套方案的本質是「用數據換算力」，以更快的語料消耗速度來換取計算時間的縮短。如果未來高質量文本被耗盡，其加速消耗數據的特性可能會成為短板。另外，在論文發佈數小時後，有讀者指出 TST 的機制與 2024 年發佈的舊作《Beyond Next Token Prediction》極度相似。作者團隊隨後在 Hugging Face 坦承這是「不幸的趨同研究（convergent research）」，承諾將更新論文補充引用。（來源：ME）

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論