stevibe的想法

本文为机器翻译

展示原文

Qwen 正在庆祝 Qwen3.6 Plus 的发布，所以我用两套测试套件对整个 Plus 系列进行了测试。首先，我运行了 ToolCall-15。 Qwen3.6 Plus 表现完美，100% 通过，所有场景均通过。 Qwen3.5 Plus？90%。Qwen Plus？87%。Qwen3-Coder-Plus？80%。测试中仍然会发现一些模型存在缺陷：“搜索冰岛的人口，然后计算其中的 2%。” Qwen3.6 Plus 使用了搜索结果，而其他模型则使用了预先记忆的数字。然后，我运行了 BugFind-15。结果截然相反。 Qwen3.5 Plus 以 94% 的通过率领先，而 Qwen3.6 Plus 则降至 84%。该系列中最新的模型反而是调试功能最弱的。工具调用功能得到了大幅提升，但调试功能却没有随之改进。

Qwen

@Alibaba_Qwen

（1/8）🚀 Introducing Qwen3.6-Plus: Towards Real-World Agents! 🤖 Today, we’re thrilled to drop a major milestone in our journey toward native multimodal agents. Here is what makes Qwen3.6-Plus a game-changer： 💻 Next-level Agentic Coding: Smarter, faster execution. 👁️