预训练提速2到3倍,Nous新方案TST陷入「撞车」争议
ME News 消息,5 月 14 日(UTC+8),据 动察 Beating 监测,Nous Research 发布大模型预训练新方案词元叠加训练(TST)。该方案通过在训练前期打包压缩相邻词元,能在同等计算量下将预训练时间缩短 2 到 3 倍。 TST 包含两个阶段。在前 20% 到 40% 的训练中,模型不再逐个读取词元,而是将相邻词元「打包」求平均值输入,并在输出端预测下一个包里包含哪些词元(不计内部顺序)。之后,模型退回常规的下一个词元预测。因为未修改底层架构,产出的模型在推理时与常规模型完全相同。该方法已在最高 100 亿参数的 MoE 模型上验证通过。 这套方案的本质是「用数据换算力」,以更快的语料消耗速度来换取计算时间的缩短。如果未来高质量文本被耗尽,其加速消耗数据的特性可能会成为短板。 另外,在论文发布数小时后,有读者指出 TST 的机制与 2024 年发布的旧作《Beyond Next Token Prediction》极度相似。作者团队随后在 Hugging Face 坦承这是「不幸的趋同研究(convergent research)」,承诺将更新论文补充引用。 (来源:ME)
来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享





