제 생각이 맞았습니다! iQuest-Coder는 설정이 잘못되어 향후 커밋을 포함한 전체 Git 히스토리를 포함하고 있었습니다. 모델은 이 점을 파악하고 자주 악용했습니다. 따라서 해당 모델의 SWE-bench 점수는 폐기해야 합니다.
이 기사는 기계로 번역되었습니다
원문 표시

Xeophon
@xeophon
01-01
Your timeline will be full of this image. If you believe this is a real model, I have a bridge to sell to you.
For starters, they don’t disclose how they run those evals, which is a huge red flag.
But good luck to the poor soul who’ll get nerdsniped by this. x.com/xianbao_qian/s…

Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유




