구글 제미니(Gemini) 2.5 프로, AI 'IQ' 경쟁에서 코딩 차트와 멘사 테스트 1위 차지

avatar
Decrypt
05-09
이 기사는 기계로 번역되었습니다
원문 표시

구글의 최근에 출시된 제미니(Gemini) 2.5 프로는 유명한 웹데브 아레나에서 코딩 리더보드 1위를 차지하며 클로드를 제쳤다. 이는 비교적 공정한 순위 사이트로, LLM 아레나와 유사하지만 AI 모델의 코딩 능력을 측정하는 데 특화되어 있다. 이러한 성과는 구글이 자사의 대표 AI 모델을 코딩 및 추론 작업의 선두주자로 포지셔닝하려는 노력의 일환이다.

올해 초에 출시된 제미니(Gemini) 2.5 프로는 여러 카테고리에서 1위를 차지했으며, 여기에는 코딩, 스타일 제어, 창의적 글쓰기가 포함된다. 모델의 거대한 컨텍스트 창은 100만 토큰으로, 곧 200만 토큰으로 확장될 예정이며, 이를 통해 경쟁사들도 감당하기 어려운 대규모 코드베이스와 복잡한 프로젝트를 처리할 수 있다. 참고로, ChatGPT와 클로드 3.7 소넷과 같은 강력한 모델들은 최대 128K 토큰만 처리할 수 있다.

제미니(Gemini)는 모든 AI 모델 중 가장 높은 "IQ"를 가지고 있다. 트래킹AI는 멘사 노르웨이의 언어화된 질문을 사용하여 AI 모델을 비교할 수 있는 표준화된 방법으로 공식화된 멘사 테스트를 진행했다.

제미니(Gemini) 2.5 프로는 훈련 데이터에 공개되지 않은 맞춤형 질문을 사용할 때도 경쟁사들보다 높은 점수를 받았다.

오프라인 테스트에서 IQ 점수 115점을 기록한 새로운 제미니(Gemini)는 "총명한 마음" 범주에 속하며, 평균 인간 지능은 85에서 114점 사이를 기록한다. 하지만 AI가 IQ를 가진다는 개념은 좀 더 깊이 있는 설명이 필요하다. AI 시스템은 인간처럼 지능 지수를 가지고 있지 않으므로, 이 벤치마크는 추론 벤치마크의 성능에 대한 은유로 생각하는 것이 더 좋다.

AI를 위해 특별히 설계된 벤치마크에서 제미니(Gemini) 2.5 프로는 AIME 2025 수학 테스트에서 86.7%, GPQA 과학 평가에서 84.0%를 기록했다. 테스트 포화 문제를 피하기 위해 만들어진 새롭고 더 어려운 벤치마크인 휴머니티의 마지막 시험(HLE)에서는 18.8%를 기록하며, OpenAI의 o3 미니(14%)와 클로드 3.7 소넷(8.9%)을 능가했는데, 이는 성능 향상 측면에서 주목할 만하다.

제미니(Gemini) 2.5 프로의 새 버전은 현재 모든 제미니 사용자에게 무료(요율 제한 있음)로 제공되고 있다. 구글은 이번 출시를 단순히 텍스트를 생성하는 것이 아니라 응답을 추론하도록 설계된 "사고 모델" 패밀리의 "2.5 프로의 실험 버전"으로 설명했다.

모든 벤치마크에서 우승하지는 못했지만, 제미니(Gemini)는 그 다재다능함으로 개발자들의 관심을 끌었다. 이 모델은 단일 프롬프트에서 복잡한 애플리케이션을 만들 수 있으며, 상세한 지침 없이도 대화형 웹앱, 끝없는 러너 게임, 시각적 시뮬레이션을 구축할 수 있다.

우리는 모델에 손상된 HTML5 코드를 수정하도록 요청했다. 모델은 거의 1000줄의 코드를 생성했으며, 이전 리더였던 클로드 3.7 소넷을 명령어 세트의 품질과 이해도 면에서 능가하는 결과를 제공했다.

실무 개발자들을 위해 제미니(Gemini) 2.5 프로의 입력 비용은 백만 토큰당 2.50달러, 출력 비용은 백만 토큰당 15.00달러로, 여전히 인상적인 기능을 제공하면서 일부 경쟁사보다 저렴한 대안으로 포지셔닝되고 있다.

이 AI 모델은 고급 요금제에서 최대 30,000줄의 코드를 처리할 수 있어 엔터프라이즈 수준의 프로젝트에 적합하다. 텍스트, 코드, 오디오, 이미지, 비디오로 작업할 수 있는 멀티모달 능력은 다른 코딩 중심 모델들이 따라올 수 없는 유연성을 더해준다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트