Xeophon

Xeophon

9,629명의 트위터 팔로워

팔로우하기

포스팅

LLM 과정 벤치마킹, 개방형 모델 및 기술 문제에 대한 생각. 답글에 링크(Chainlink) .

그냥 제 착각인가요, 아니면 gpt-5.2(-codex) 버전이 실제로 더 빨라진 건가요?

최근 궁금한 점들: - 일부 스캐폴드가 더 나은 성능을 보이는 이유는 무엇일까요? 프롬프트 때문일까요? 사용 가능한 도구, 특히 검색 도구 때문일까요? 아니면 루프 자체 때문일까요? - 모델별 프롬프트가 첫 번째 질문에 미치는 영향은 무엇일까요? 프론티어에 미치는 영향은 어느 정도일까요?

업데이트: 개발팀에서 문제를 인지하고 공식 이미지로 SWE-bench를 다시 실행했습니다. 그 결과 점수가 (여전히 매우 인상적인) 76.2점으로 떨어졌습니다. 칭찬할 만합니다! 또한 vLLM 커널 패치를 제공하고 양자 컴퓨팅 사용을 권장하지 않습니다. github.com/IQuestLab/IQuest-Co...…

제 생각이 맞았습니다!! iQuest-Coder는 설정이 잘못되어 향후 커밋을 포함한 전체 Git 히스토리를 포함하고 있었습니다. 모델은 이 점을 파악하고 자주 악용했습니다. 따라서 해당 SWE 벤치마크 점수는 폐기해야 합니다. twitter.com/xeophon/status/200...

-- 끝 --