avatar
Xeophon
01-02
本文为机器翻译
展示原文

我猜对了! ! IQuest-Coder 的配置有误,它包含了完整的 Git 历史记录,包括未来的提交。该模型发现了这个漏洞,并且经常使用它。 因此,它的 SWE-bench 得分应该被舍弃。

Xeophon
@xeophon
01-01
Your timeline will be full of this image. If you believe this is a real model, I have a bridge to sell to you. For starters, they don’t disclose how they run those evals, which is a huge red flag. But good luck to the poor soul who’ll get nerdsniped by this. x.com/xianbao_qian/s…
来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论