구글은 이번 주에 제미니 2.0을 출시했으며, 최신 AI 모델에 자율 기능과 멀티모달 기능을 탑재했습니다.
이번 릴리스에서 가장 눈에 띄는 점은 구글이 AI 채팅봇을 사용자와 상호 작용하고 실시간으로 작업을 이해하고 실행하는 맞춤형 소프트웨어인 AI 에이전트로 발전시키고 있다는 것입니다.
"멀티모달리티의 새로운 발전, 즉 기본 이미지 및 오디오 출력과 기본 도구 사용을 통해 우리는 범용 어시스턴트에 대한 비전을 실현할 수 있는 새로운 AI 에이전트를 구축할 수 있게 될 것입니다."라고 구글 CEO 선다르 피차이가 말했습니다.
이 모델은 제미니 1.5의 멀티모달 기반 위에 새로운 기본 이미지 생성 및 텍스트 음성 변환 기능과 향상된 추론 기능을 추가했습니다.
구글에 따르면 2.0 플래시 버전은 이전 1.5 프로 모델보다 주요 벤치마크에서 성능이 우수하면서도 속도는 2배 빠릅니다.
이 모델은 현재 구글 어드밴스드 구독자에게만 제공되며, 이는 클로드와 ChatGPT Plus에 대항하기 위해 설계된 유료 구독 서비스입니다.
더러운 손을 원하는 사람들은 구글 AI 스튜디오를 통해 모델에 액세스하여 더 완전한 경험을 즐길 수 있습니다.
이 인터페이스는 제미니가 제공하는 간단하고 직관적이며 사용자 친화적인 UI보다 더 복잡합니다.
또한 더 강력하지만 훨씬 느립니다. 우리의 테스트에서 74,000개의 토큰으로 구성된 문서를 분석하도록 요청했더니 응답을 생성하는 데 거의 10분이 걸렸습니다.
그러나 출력은 환각 없이 정확했습니다. 약 200,000개의 토큰(약 150,000단어)으로 구성된 더 긴 문서는 훨씬 더 오래 걸리겠지만, 충분한 인내심을 가지고 있다면 이 모델이 그 작업을 수행할 수 있습니다.
구글은 또한 제미니 어드밴스드에서 사용할 수 있는 "딥 리서치" 기능을 구현했습니다. 이 기능을 통해 모델의 향상된 추론 및 장기 문맥 기능을 활용하여 복잡한 주제를 탐구하고 보고서를 작성할 수 있습니다.
이를 통해 사용자는 일반 모델로는 얻을 수 없는 심도 있는 주제 탐구를 수행할 수 있습니다. 그러나 이 기능은 제미니 1.5를 기반으로 하며, 제미니 2.0 기반 버전이 나올 때까지 시기를 알 수 없습니다.
이 새로운 기능을 통해 제미니는 퍼플렉시티의 프로 검색, You.com의 리서치 어시스턴트, 그리고 BeaGo와 같은 유사한 경험을 제공하는 서비스와 직접 경쟁하게 됩니다. 그러나 구글의 서비스는 다른 점이 있습니다. 정보를 제공하기 전에 먼저 과제에 대한 최선의 접근 방식을 마련해야 합니다.
이 서비스는 사용자에게 계획을 제시하며, 사용자는 이를 편집하여 정보를 포함하거나 제외하고, 추가 연구 자료를 추가하거나 정보 조각을 추출할 수 있습니다. 방법론이 설정되면 사용자는 채팅봇에게 연구를 시작하라고 지시할 수 있습니다. 지금까지 어떤 AI 서비스도 연구자에게 이 수준의 제어와 사용자 정의를 제공하지 않았습니다.
우리의 테스트에서 "AI가 인간 관계에 미치는 영향 조사"와 같은 간단한 프롬프트는 12개가 넘는 신뢰할 수 있는 과학 또는 공식 사이트에 대한 조사를 트리거했으며, 모델은 8개의 적절히 인용된 출처를 기반으로 3페이지 분량의 문서를 생성했습니다. 매우 좋습니다.
구글은 또한 제미니 2.0으로 구동되는 실험적 AI 어시스턴트 프로젝트 아스트라를 선보이는 동영상을 공유했습니다. 아스트라는 구글의 메타 AI에 대한 대응으로, 스마트폰의 카메라와 마이크를 정보 입력으로 사용하고 음성 모드로 응답하는 실시간 대화형 AI 어시스턴트입니다.
구글은 프로젝트 아스트라에 다국어 대화, 향상된 억양 인식, 구글 검색, 렌즈, 지도와의 통합, 10분간의 대화 내용을 유지하는 확장된 메모리, 장기 메모리, 새로운 스트리밍 기능을 통한 낮은 대화 지연 등의 기능을 추가했습니다.
소셜 미디어에서 다소 냉담한 반응을 보였지만 - 구글의 동영상은 출시 이후 90,000회 뷰밖에 받지 못했습니다 - 새로운 모델 제품군의 출시는 ChatGPT Plus의 주요 중단 기간 동안 사용자들 사이에서 상당한 관심을 끌고 있는 것으로 보입니다.
이번 주 구글의 발표는 OpenAI와 경쟁하여 생성 AI 산업의 선두 주자가 되려는 구글의 의도를 분명히 보여줍니다.
실제로 구글의 발표는 OpenAI의 "크리스마스 12일" 캠페인 중간에 이루어졌습니다. 이 캠페인에서 OpenAI는 새로운 제품을 매일 공개하고 있습니다.
지금까지 OpenAI는 새로운 추론 모델(o1), 비디오 생성 도구(Sora), 그리고 월 200달러의 "프로" 구독 서비스를 공개했습니다.
구글은 또한 에이전트를 사용하여 웹사이트를 탐색하고 작업을 완수하는 새로운 AI 기반 크롬 확장 프로그램 프로젝트 마리너를 공개했습니다. 구글에 따르면 마리너는 단일 에이전트로 작동하면서 실제 웹 작업 벤치마크인 WebVoyager에서 83.5%의 성공률을 달성했습니다.
"지난 1년 동안 우리는 더 에이전트 지향적인 모델을 개발하는 데 투자해 왔습니다. 즉, 주변 환경을 더 잘 이해하고, 여러 단계를 미리 생각하며, 사용자의 감독 하에 대신 행동할 수 있는 모델을 말합니다."라고 피차이가 발표문에서 밝혔습니다.
구글은 제미니 2.0 통합을 자사 제품군 전반에 걸쳐 확대할 계획이며, 오늘 제미니 앱에 대한 실험적 액세스로 시작할 것입니다. 1월에는 Google Search의 AI 기능에 통합되는 등 더 광범위한 출시가 이루어질 것입니다. 이 기능은 현재 10억 명 이상의 사용자에게 도달하고 있습니다.
제미니 2.0의 출시는 앤트로픽이 조용히 최신 업데이트를 공개한 시점에 이루어졌습니다. 클로드 3.5 하이쿠는 코딩 작업에서 우수한 성능을 자랑하며, SWE-bench Verified 벤치마크에서 40.6%를 기록했습니다.
앤트로픽은 여전히 가장 강력한 모델인 클로드 3.5 오푸스를 훈련 중이며, 일련의 지연 끝에 2025년 후반에 출시될 예정입니다.
구글과 앤트로픽의 프리미엄 서비스 모두 월 20달러로 OpenAI의 기본 ChatGPT Plus 티어와 가격이 동일합니다.
앤트로픽의 클로드 3.5 하이쿠는 클로드 3 소네트(이전 세대의 앤트로픽 중형 모델)보다 훨씬 빠르고 저렴하며 강력한 것으로 입증되었습니다. HumanEval 코딩 과제에서 88.1%, 다국어 수학 문제에서 85.6%의 점수를 받았습니다.
이 모델은 특히 데이터 처리 분야에서 강점을 보이며, Replit과 Apollo와 같은 기업들은 코드 정제 및 콘텐츠 생성 분야에서 상당한 개선을 보고했습니다.
클로드 3.5 하이쿠는 입력 100만 토큰당 0.80달러로 저렴합니다.
앤트로픽은 프롬프트 캐싱과 메시지 배치 API를 통해 최대 90%의 비용 절감을 달성할 수 있다고 주장하며, 이 모델을 기업이 AI 운영을 확장하는 데 비용 효율적인 옵션으로, 그리고 입력 100만 토큰당 3달러를 요구하는 OpenAI o1-mini에 비해 매우 흥미로운 옵션으로 포지셔닝하고 있습니다.