Nous Research證實分詞紅利可被純字節模擬,免分詞大模型迎突破
ME News 消息,5 月 22 日(UTC+8),據 動察 Beating 監測,Nous Research 發表論文指出,大語言模型長期依賴的分詞器未來有望被替代。通過在 1.7B 參數規模下進行受控測試,研究團隊系統量化了分詞機制的性能優勢,證明這些紅利能夠通過工程手段在純字節層面被有效模擬。 實驗發現,只要在原生字節模型中提升數據吞吐量並注入形態學邊界,就能大幅彌合性能差距。在同等算力預算下,模擬壓縮擴大了單步梯度的處理量,直接貢獻了最大的驗證損失降幅。同時,將子詞邊界作為二進制序列疊加至輸入字節中,成功為模型建立了不洩露未來信息的長效歸納偏置。 儘管更龐大參數下的協同效應仍有待驗證,但這項測試發現在 1.7B 規模下,詞表參數縮放以及預測下一個子詞等另外四項機制的收益極度有限。這為開發免分詞大模型提供了明確的破局思路,指出未來架構優化應當直接聚焦於提升實際吞吐量,並以非洩露的方式顯式融入形態學先驗。 (來源:ME)
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




