Nous Research證實分詞紅利可被純字節模擬，免分詞大模型迎突破

ME News 消息，5 月 22 日（UTC+8），據動察 Beating 監測，Nous Research 發表論文指出，大語言模型長期依賴的分詞器未來有望被替代。通過在 1.7B 參數規模下進行受控測試，研究團隊系統量化了分詞機制的性能優勢，證明這些紅利能夠通過工程手段在純字節層面被有效模擬。實驗發現，只要在原生字節模型中提升數據吞吐量並注入形態學邊界，就能大幅彌合性能差距。在同等算力預算下，模擬壓縮擴大了單步梯度的處理量，直接貢獻了最大的驗證損失降幅。同時，將子詞邊界作為二進制序列疊加至輸入字節中，成功為模型建立了不洩露未來信息的長效歸納偏置。儘管更龐大參數下的協同效應仍有待驗證，但這項測試發現在 1.7B 規模下，詞表參數縮放以及預測下一個子詞等另外四項機制的收益極度有限。這為開發免分詞大模型提供了明確的破局思路，指出未來架構優化應當直接聚焦於提升實際吞吐量，並以非洩露的方式顯式融入形態學先驗。（來源：ME）

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論