이 기사는 기계로 번역되었습니다
원문 표시
차세대 LLM 벤치마크는 더 이상 swe-bench lite/verified/pro/ultra에서 실행해서는 안 됩니다.
대신, 매달 무작위로 선정된 별도의 폐쇄형 플랫폼에서 실행해야 합니다. 이 플랫폼에서는 GitHub에서 5,000개의 이슈를 찾아 모든 모델에 동일한 테스트 환경을 적용하고, 심판 에이전트가 테스트 케이스를 작성하여 성공 여부를 판단합니다.
이슈가 무작위로 선정되므로 해결된 이슈의 수나 비율에 대해 걱정할 필요 없이 상대적인 순위만 확인하면 됩니다.
이러한 방식은 swe-bench를 이용한 미세 조정이나 부정행위에 대한 우려를 없애고, 특정 업체(예: A 업체는 문제를 재현할 수 있지만 B 업체는 재현할 수 없는 경우, C 업체가 최상의 결과만 선택적으로 활용하는 경우)의 통제 불가능한 요소를 제거합니다.
모든 사용자는 해당 월의 최신 공식 순위만 확인하면 됩니다.
이는 두 모델을 동시에 실행하고 사용자가 수동으로 왼쪽 또는 오른쪽 모델 중 어느 쪽이 더 나은지 투표하는 기존 방식보다 훨씬 우수합니다.
단, 이 순위의 장기적인 비교는 의미가 없습니다. 3월에 1위를 차지한 모델 A가 문제의 60%를 해결했고, 4월에 1위를 차지한 모델 B는 40%만 해결했을 수도 있습니다. 왜냐하면 3월과 4월의 문제는 완전히 다르기 때문에 장기적인 비교는 무의미하기 때문입니다.
이번 달의 상대적 순위만 봐도 알 수 있습니다.
이것이 바로 진정한 사이버 크리켓의 승부입니다.
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유





