avatar
Yohei
03-25
本文为机器翻译
展示原文

哪些本地模型能够真正处理工具呼叫? 我建立了一个框架来找出答案。 15 个场景。 12 个工具。模拟响应。温度为 0。不进行任何选择性测试。 测试了从 0.8B 到 397B 的所有 Qwen3.5 版本,并且由于一些朋友在蒸馏测试后询问过,所以也包含了 Jackrong 的 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 版本。 只有两个模型全部通过测试:27B 的密集模型和蒸馏后的 27B 模型。 397B 模型?两次测试失败。 122B 模型?一次失败。 35B 模型?两次失败。 逾时结果——主要出现在较小的模型上——是由于模型陷入循环,不断重复相同的工具调用,直到达到 30 秒的限制。 最能暴露模型缺陷的测试是:「搜寻冰岛人口,然后计算其 2%」。这很简单,但 35B、122B 和 397B 都使用了记忆中的四舍五入值,而不是实际的搜寻结果。它们不信任自己工具的输出结果。 小型模型会臆想资料。 大型模型会忽略资料。 而 27B 只是勉强通过了测试。

来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论