오늘
정보
시장
적립
설정
계정
테마 선택
라이트
다크
언어
English
简体中文
繁體中文
Tiếng Việt
한국어
Followin APP
Web3 가능성 발견
App Store
Google Play
로그인
Xeophon
9,629명의 트위터 팔로워
팔로우하기
포스팅
Xeophon
02-27
LLM 과정 벤치마킹, 개방형 모델 및 기술 문제에 대한 생각. 답글에 링크(Chainlink) .
Xeophon
01-16
스레드
#스레드#
그냥 제 착각인가요, 아니면 gpt-5.2(-codex) 버전이 실제로 더 빨라진 건가요?
Xeophon
01-13
스레드
#스레드#
최근 궁금한 점들: - 일부 스캐폴드가 더 나은 성능을 보이는 이유는 무엇일까요? 프롬프트 때문일까요? 사용 가능한 도구, 특히 검색 도구 때문일까요? 아니면 루프 자체 때문일까요? - 모델별 프롬프트가 첫 번째 질문에 미치는 영향은 무엇일까요? 프론티어에 미치는 영향은 어느 정도일까요?
0XSEARCH
0%
Xeophon
01-03
업데이트: 개발팀에서 문제를 인지하고 공식 이미지로 SWE-bench를 다시 실행했습니다. 그 결과 점수가 (여전히 매우 인상적인) 76.2점으로 떨어졌습니다. 칭찬할 만합니다! 또한 vLLM 커널 패치를 제공하고 양자 컴퓨팅 사용을 권장하지 않습니다. github.com/IQuestLab/IQuest-Co...…
Xeophon
01-02
제 생각이 맞았습니다!! iQuest-Coder는 설정이 잘못되어 향후 커밋을 포함한 전체 Git 히스토리를 포함하고 있었습니다. 모델은 이 점을 파악하고 자주 악용했습니다. 따라서 해당 SWE 벤치마크 점수는 폐기해야 합니다. twitter.com/xeophon/status/200...
-- 끝 --