Nous Research证实分词红利可被纯字节模拟,免分词大模型迎突破
ME News 消息,5 月 22 日(UTC+8),据 动察 Beating 监测,Nous Research 发表论文指出,大语言模型长期依赖的分词器未来有望被替代。通过在 1.7B 参数规模下进行受控测试,研究团队系统量化了分词机制的性能优势,证明这些红利能够通过工程手段在纯字节层面被有效模拟。 实验发现,只要在原生字节模型中提升数据吞吐量并注入形态学边界,就能大幅弥合性能差距。在同等算力预算下,模拟压缩扩大了单步梯度的处理量,直接贡献了最大的验证损失降幅。同时,将子词边界作为二进制序列叠加至输入字节中,成功为模型建立了不泄露未来信息的长效归纳偏置。 尽管更庞大参数下的协同效应仍有待验证,但这项测试发现在 1.7B 规模下,词表参数缩放以及预测下一个子词等另外四项机制的收益极度有限。这为开发免分词大模型提供了明确的破局思路,指出未来架构优化应当直接聚焦于提升实际吞吐量,并以非泄露的方式显式融入形态学先验。 (来源:ME)
来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享




