本文為機器翻譯
展示原文
Qwen 正在慶祝 Qwen3.6 Plus 的發佈,所以我用兩套測試套件對整個 Plus 系列進行了測試。
首先,我運行了 ToolCall-15。
Qwen3.6 Plus 表現完美,100% 通過,所有場景均通過。
Qwen3.5 Plus?90%。Qwen Plus?87%。Qwen3-Coder-Plus?80%。
測試中仍然會發現一些模型存在缺陷:“搜索冰島的人口,然後計算其中的 2%。” Qwen3.6 Plus 使用了搜索結果,而其他模型則使用了預先記憶的數字。
然後,我運行了 BugFind-15。結果截然相反。
Qwen3.5 Plus 以 94% 的通過率領先,而 Qwen3.6 Plus 則降至 84%。該系列中最新的模型反而是調試功能最弱的。
工具調用功能得到了大幅提升,但調試功能卻沒有隨之改進。

Qwen
@Alibaba_Qwen
(1/8)🚀 Introducing Qwen3.6-Plus: Towards Real-World Agents! 🤖
Today, we’re thrilled to drop a major milestone in our journey toward native multimodal agents.
Here is what makes Qwen3.6-Plus a game-changer:
💻 Next-level Agentic Coding: Smarter, faster execution.
👁️

屏幕截圖




來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




