谷歌研究推出TurboQuant压缩算法,优化LLM推理效率

ME News 消息,3 月 26 日(UTC+8),谷歌研究(Google Research)近日宣布推出名为TurboQuant的新型压缩算法。该算法旨在优化大语言模型(LLM)的推理效率,据称可将LLM的键值(key-value)缓存内存占用减少至少6倍,推理速度提升高达8倍,并且实现了零精度损失。文中将该技术描述为“重新定义AI效率”。(来源:ME)

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论