Yohei的想法

03-25

本文為機器翻譯

展示原文

哪些本地模型能夠真正處理工具呼叫？我建立了一個框架來找出答案。 15 個場景。 12 個工具。模擬響應。溫度為 0。不進行任何選擇性測試。測試了從 0.8B 到 397B 的所有 Qwen3.5 版本，並且由於一些朋友在蒸餾測試後詢問過，所以也包含了 Jackrong 的 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 版本。只有兩個模型全部通過測試：27B 的密集模型和蒸餾後的 27B 模型。 397B 模型？兩次測試失敗。 122B 模型？一次失敗。 35B 模型？兩次失敗。逾時結果——主要出現在較小的模型上——是由於模型陷入循環，不斷重複相同的工具調用，直到達到 30 秒的限制。最能暴露模型缺陷的測試是：「搜尋冰島人口，然後計算其 2%」。這很簡單，但 35B、122B 和 397B 都使用了記憶中的四捨五入值，而不是實際的搜尋結果。它們不信任自己工具的輸出結果。小型模型會臆想資料。大型模型會忽略資料。而 27B 只是勉強通過了測試。

來自推特

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論