我猜對了! ! IQuest-Coder 的配置有誤,它包含了完整的 Git 歷史記錄,包括未來的提交。該模型發現了這個漏洞,並且經常使用它。 因此,它的 SWE-bench 得分應該被捨棄。
本文為機器翻譯
展示原文

Xeophon
@xeophon
01-01
Your timeline will be full of this image. If you believe this is a real model, I have a bridge to sell to you.
For starters, they don’t disclose how they run those evals, which is a huge red flag.
But good luck to the poor soul who’ll get nerdsniped by this. x.com/xianbao_qian/s…

來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




