Nous Research证实分词红利可被纯字节模拟，免分词大模型迎突破

ME News 消息，5 月 22 日（UTC+8），据动察 Beating 监测，Nous Research 发表论文指出，大语言模型长期依赖的分词器未来有望被替代。通过在 1.7B 参数规模下进行受控测试，研究团队系统量化了分词机制的性能优势，证明这些红利能够通过工程手段在纯字节层面被有效模拟。实验发现，只要在原生字节模型中提升数据吞吐量并注入形态学边界，就能大幅弥合性能差距。在同等算力预算下，模拟压缩扩大了单步梯度的处理量，直接贡献了最大的验证损失降幅。同时，将子词边界作为二进制序列叠加至输入字节中，成功为模型建立了不泄露未来信息的长效归纳偏置。尽管更庞大参数下的协同效应仍有待验证，但这项测试发现在 1.7B 规模下，词表参数缩放以及预测下一个子词等另外四项机制的收益极度有限。这为开发免分词大模型提供了明确的破局思路，指出未来架构优化应当直接聚焦于提升实际吞吐量，并以非泄露的方式显式融入形态学先验。（来源：ME）

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢