avatar
웹3 솔라나 광기 연구실
关注
动态
avatar
웹3 솔라나 광기 연구실
03-25
【本地LLM专案用户请注意:Google研究院发布TurboQuant】 AI模型在对话过程中会使用一种叫做「键值快取」(KV快取)的东西。简单来说,它就像一个记事本,AI用它来快速引用之前读取的内容;然而,随著对话时间的延长,这个快取会越来越大,最终耗尽GPU记忆体。因此,处理这个快取需要昂贵的GPU。 (这与词元略有不同。虽然键值快取也会随著词元增长,但它是临时数据,只在记忆体中短暂存在,并在会话重启后消失。) TurboQuant是一种压缩演算法,它可以将这个记事本的大小减少六倍以上,同时保持零精度损失。此外,它的速度也提升了八倍。这代表著效率的巨大提升。 过去曾有许多尝试,但无论压缩程度如何,都需要额外的记忆体(开销),这给实现带来了巨大的挑战。然而,TurboQuant 的创新之处在于,它透过数学技巧(将向量转换为极座标 + 1 位元错误检查)消除了额外的记忆体占用。 因此,结论如下: - 在同一 GPU 上可以进行更长的对话 - AI 服务的运作成本降低 - 本地模型可以使用更大的上下文窗口 以上是结果。 一位名叫 Prince 的 MLX(一个用于运行类似 Ollama 的本地 LLM 的作业系统)员工直接在 MLX 上实现了这一功能并进行了测试,结果如下。 测试方法:使用 Qwen3.5-35B-A3B 模型进行「大海捞针」测试(8.5K、32.7K、64.2K 个情境) - 6 个答案全部正确(所有量化等级) - TurboQuant 2.5 位元:键值快取减少 4.9 倍 - TurboQuant 3.5 位元:键值快取减少 3.8 倍 - 准确率无损失(难以置信…) 实际上,我还在一台 64GB 的 Mac Mini 上透过 Ollama 运行了 Qwen 27b。准确来说,我运行的是 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 模型。虽然精简后的模型表现更好,反应速度也比直接运行 Qwen 更快,但速度仍然慢得令人沮丧。 如果按照计算结果,KV快取减少4到5倍,那么在相同的64GB记忆体下,效能有望超过10万+,上下文视窗也将从32KB提升……甚至有可能运行比目前模型更大的模型。 如果您计划在Mac Mini上运行本地模型,或者目前正在这样做,那么这无疑是一个值得关注的消息。 更多详情和来源
OPUS
1.1%
avatar
웹3 솔라나 광기 연구실
03-15
很多人不知道的事实是:用韩语与人工智能对话的成本要高出 50% 到 70%。 在英语中,一个单词大致对应一个词元(token)。例如,“Hello”是一个词元,“artificial intelligence”是两个词元。然而,韩语的情况略有不同。“안녕하세요”(你好)会被拆分成 2 到 3 个词元。由于韩语的结构是组合式的,因此其结构设计上比英语需要使用更多的词元。用韩语编写相同的内容,所需的词元数量大约是英语的 1.52 倍。 由于 API 的成本与词元数量成正比,因此,对于相同的内容,用韩语编写的成本要高出惊人的 50% 到 70%。此外,如果您也收到人工智能的韩语回复,那么输出词元的成本同样会高出 50% 到 70%。 关于这一点,有人提到还有其他研究结果(arxiv.org/pdf/2507.00246), 这项研究只测试了数学,甚至完全排除了我们常用的模型,例如 GPT 和 Claude。这些模型基于英语接收 RLHF,因此结果可能有所不同。该研究中使用的模型是 DeepSeek R1、Qwen 2.5 和 Qwen 3,它们都是源自中国的语言学习模型…… 此外,“减少词元数量 = 效率”的前提也存在一些问题。即使用韩语思考可以减少词元数量,但一个韩语词元的成本(字节数、处理成本)仍然高于一个英语词元。 所以,总而言之,如果你经常使用 AI 并且总是达到速率限制,我建议你暂时用英语交流,把它当作一种英语练习方式,哈哈。
GPT
0%
loading indicator
Loading..