METR이 AI 에이전트 성능 벤치마크를 업데이트했습니다. Gemini 3.1 Pro는 모든 최첨단 모델을 제치고 안정성 부문에서 1위를 차지했습니다.

이 기사는 기계로 번역되었습니다

원문 표시

ME 뉴스에 따르면, AI 안전성 평가 기관인 비팅(Beating)은 4월 16일(UTC+8)에 구글 제미니 3.1 프로(Gemini 3.1 Pro)의 테스트 데이터를 추가하여 "타임 호라이즌(Time Horizon)" 벤치마크를 업데이트했습니다. 이 벤치마크는 최첨단 AI 에이전트가 프로그래밍 작업을 독립적으로 완료할 수 있는 능력의 상한선을 추적하는 지표로, 올해 2월 출시 이후 AI 에이전트 역량 성장을 측정하는 중요한 기준으로 자리 잡았습니다. 측정 방식은 평균 경력 5년 이상의 소프트웨어 엔지니어 전문가와 AI 에이전트가 100개 이상의 동일한 소프트웨어 작업을 완료하도록 하고, 작업 난이도는 전문가의 작업 시간을 기준으로 측정합니다. 핵심 지표는 50% 타임 호라이즌(AI가 완료할 확률이 50%인 가장 어려운 작업)과 80% 타임 호라이즌(AI가 완료할 확률이 80%인 가장 어려운 작업) 두 가지입니다. 제미니 3.1 프로는 이 두 지표 모두에서 순위가 뒤바뀌었습니다. 50% 시간 범위에서는 Claude Opus 4.6에 이어 2위를 차지합니다. 1. Claude Opus 4.6: 약 12.0시간 2. Gemini 3.1 Pro: 약 6.4시간 3. GPT-5.2: 약 5.9시간 4. GPT-5.4: 약 5.7시간 하지만, 더 엄격한 80% 시간 범위에서는 Gemini 3.1 Pro가 1위를 차지합니다. 1. Gemini 3.1 Pro: 약 1.5시간 2. Claude Opus 4.6: 약 1.2시간 3. GPT-5.2: 약 1.1시간 Claude Opus 4.6은 더 어려운 작업을 처리할 수 있지만 성공률이 크게 변동하는 반면, Gemini 3.1 Pro는 한계는 낮지만 해당 범위 내에서 더 안정적입니다. 예측 가능한 결과가 필요한 실제 운영 환경에서는 후자가 더 실용적일 수 있습니다. 이전 모델인 제미니 3 프로(50% 시간 범위 약 3.7시간)와 비교했을 때, 제미니 3.1 프로는 약 71%의 성능 향상을 보여줍니다. 더 긴 시간 범위를 살펴보면, METR 데이터에 따르면 최첨단 모델의 시간 범위는 2019년 GPT-2의 몇 초에서 현재 10시간 이상으로 증가했으며, 대략 4.3개월마다 두 배씩 늘어나고 있습니다. METR은 "기하급수적 성장이 둔화될 조짐이 보이지 않는다"고 밝혔습니다. METR의 과제는 소프트웨어 엔지니어링, 머신러닝(ML), 사이버 보안 등 잘 정의되고 자동으로 점수가 매겨지는 독립적인 작업들을 포함한다는 점에 유의해야 합니다. 이후 METR 연구에 따르면, 점수 산정 방식이 알고리즘 판단에서 인간의 전반적인 평가로 변경될 경우 AI 성능이 크게 저하되는 것으로 나타났습니다. 12시간의 시간 범위가 AI가 인간의 반나절 업무를 대체할 수 있다는 것을 의미하는 것은 아닙니다. (출처: ME)

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트