avatar
Yohei
03-25
本文為機器翻譯
展示原文

哪些本地模型能夠真正處理工具呼叫? 我建立了一個框架來找出答案。 15 個場景。 12 個工具。模擬響應。溫度為 0。不進行任何選擇性測試。 測試了從 0.8B 到 397B 的所有 Qwen3.5 版本,並且由於一些朋友在蒸餾測試後詢問過,所以也包含了 Jackrong 的 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 版本。 只有兩個模型全部通過測試:27B 的密集模型和蒸餾後的 27B 模型。 397B 模型?兩次測試失敗。 122B 模型?一次失敗。 35B 模型?兩次失敗。 逾時結果——主要出現在較小的模型上——是由於模型陷入循環,不斷重複相同的工具調用,直到達到 30 秒的限制。 最能暴露模型缺陷的測試是:「搜尋冰島人口,然後計算其 2%」。這很簡單,但 35B、122B 和 397B 都使用了記憶中的四捨五入值,而不是實際的搜尋結果。它們不信任自己工具的輸出結果。 小型模型會臆想資料。 大型模型會忽略資料。 而 27B 只是勉強通過了測試。

來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論