stevibe의 인사이트

이 기사는 기계로 번역되었습니다

원문 표시

Qwen이 Qwen3.6 Plus 출시를 기념하여, 저는 모든 Plus 제품군을 두 가지 테스트 스위트에서 테스트해 보았습니다. 먼저 ToolCall-15를 실행했습니다. Qwen3.6 Plus는 완벽하게 작동했습니다. 100% 성공률. 모든 시나리오에서 녹색으로 표시되었습니다. Qwen3.5 Plus는 어땠을까요? 90%. Qwen Plus는? 87%. Qwen3-Coder-Plus는? 80%. 여전히 모델의 성능을 잡아내는 테스트는 "아이슬란드 인구를 검색한 다음, 그중 2%를 계산하세요."였습니다. Qwen3.6 Plus는 검색 결과를 사용했지만, 다른 모델들은 저장된 숫자를 사용했습니다. 다음으로 BugFind-15를 실행했습니다. 결과가 완전히 뒤바뀌었습니다. Qwen3.5 Plus가 94%로 선두를 차지했습니다. Qwen3.6 Plus는 84%로 떨어졌습니다. 제품군에서 가장 최신 모델이 디버거 성능이 가장 떨어지는 것입니다. 툴 호출 기능은 대폭 업그레이드되었습니다. 하지만 디버깅 기능은 그에 맞춰 개선되지 않았습니다.

Qwen

@Alibaba_Qwen

（1/8）🚀 Introducing Qwen3.6-Plus: Towards Real-World Agents! 🤖 Today, we’re thrilled to drop a major milestone in our journey toward native multimodal agents. Here is what makes Qwen3.6-Plus a game-changer： 💻 Next-level Agentic Coding: Smarter, faster execution. 👁️

스크린샷

Twitter에서

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트