Yohei的想法

03-25

本文为机器翻译

展示原文

哪些本地模型能够真正处理工具呼叫？我建立了一个框架来找出答案。 15 个场景。 12 个工具。模拟响应。温度为 0。不进行任何选择性测试。测试了从 0.8B 到 397B 的所有 Qwen3.5 版本，并且由于一些朋友在蒸馏测试后询问过，所以也包含了 Jackrong 的 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 版本。只有两个模型全部通过测试：27B 的密集模型和蒸馏后的 27B 模型。 397B 模型？两次测试失败。 122B 模型？一次失败。 35B 模型？两次失败。逾时结果——主要出现在较小的模型上——是由于模型陷入循环，不断重复相同的工具调用，直到达到 30 秒的限制。最能暴露模型缺陷的测试是：「搜寻冰岛人口，然后计算其 2%」。这很简单，但 35B、122B 和 397B 都使用了记忆中的四舍五入值，而不是实际的搜寻结果。它们不信任自己工具的输出结果。小型模型会臆想资料。大型模型会忽略资料。而 27B 只是勉强通过了测试。

来自推特

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢