OpenAI, AI의 연구 복제 능력을 평가하기 위해 PaperBench 벤치마크 출시

04-03

이 기사는 기계로 번역되었습니다

원문 표시

포어사이트뉴스(Foresight News) 소식에 따르면, OpenAI가 AI 에이전트의 연구 복제 능력을 평가하기 위한 PaperBench 기준 테스트를 출시했습니다. AI는 ICML 2024의 상위 20편 논문을 복제해야 하며, 이는 논문 이해, 코드 작성 및 실험 수행을 포함합니다. 테스트는 원저자와 공동 개발한 세분화된 채점 기준을 통해 진행되며, 8,316개의 구체적인 요구 사항을 포함하고 대규모 언어 모델이 평가합니다. 결과에 따르면, Claude 3.5 Sonnet (New)가 오픈소스 프레임워크와 결합하여 가장 우수한 성능을 보였으며, 평균 복제 점수는 21.0%였지만 여전히 인간의 기준선을 넘지는 못했습니다.