stevibe的想法

本文為機器翻譯

展示原文

Qwen 正在慶祝 Qwen3.6 Plus 的發佈，所以我用兩套測試套件對整個 Plus 系列進行了測試。首先，我運行了 ToolCall-15。 Qwen3.6 Plus 表現完美，100% 通過，所有場景均通過。 Qwen3.5 Plus？90%。Qwen Plus？87%。Qwen3-Coder-Plus？80%。測試中仍然會發現一些模型存在缺陷：“搜索冰島的人口，然後計算其中的 2%。” Qwen3.6 Plus 使用了搜索結果，而其他模型則使用了預先記憶的數字。然後，我運行了 BugFind-15。結果截然相反。 Qwen3.5 Plus 以 94% 的通過率領先，而 Qwen3.6 Plus 則降至 84%。該系列中最新的模型反而是調試功能最弱的。工具調用功能得到了大幅提升，但調試功能卻沒有隨之改進。

Qwen

@Alibaba_Qwen

（1/8）🚀 Introducing Qwen3.6-Plus: Towards Real-World Agents! 🤖 Today, we’re thrilled to drop a major milestone in our journey toward native multimodal agents. Here is what makes Qwen3.6-Plus a game-changer： 💻 Next-level Agentic Coding: Smarter, faster execution. 👁️