预训练提速2到3倍，Nous新方案TST陷入「撞车」争议

ME News 消息，5 月 14 日（UTC+8），据动察 Beating 监测，Nous Research 发布大模型预训练新方案词元叠加训练（TST）。该方案通过在训练前期打包压缩相邻词元，能在同等计算量下将预训练时间缩短 2 到 3 倍。 TST 包含两个阶段。在前 20% 到 40% 的训练中，模型不再逐个读取词元，而是将相邻词元「打包」求平均值输入，并在输出端预测下一个包里包含哪些词元（不计内部顺序）。之后，模型退回常规的下一个词元预测。因为未修改底层架构，产出的模型在推理时与常规模型完全相同。该方法已在最高 100 亿参数的 MoE 模型上验证通过。这套方案的本质是「用数据换算力」，以更快的语料消耗速度来换取计算时间的缩短。如果未来高质量文本被耗尽，其加速消耗数据的特性可能会成为短板。另外，在论文发布数小时后，有读者指出 TST 的机制与 2024 年发布的旧作《Beyond Next Token Prediction》极度相似。作者团队随后在 Hugging Face 坦承这是「不幸的趋同研究（convergent research）」，承诺将更新论文补充引用。（来源：ME）

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢