谷歌研究推出TurboQuant壓縮算法,優化LLM推理效率

ME News 消息,3 月 26 日(UTC+8),谷歌研究(Google Research)近日宣佈推出名為TurboQuant的新型壓縮算法。該算法旨在優化大語言模型(LLM)的推理效率,據稱可將LLM的鍵值(key-value)緩存內存佔用減少至少6倍,推理速度提升高達8倍,並且實現了零精度損失。文中將該技術描述為“重新定義AI效率”。(來源:ME)

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論