Google은 공식적으로 Gemini 3를 출시했습니다. 이는 지금까지 가장 강력한 AI 에이전트이자 Vibe Coding 대규모 언어 모델입니다.

11-19

이 기사는 기계로 번역되었습니다

원문 표시

구글은 오늘 차세대 대규모 언어 모델인 제미니 3(Gemini 3)를 공식 발표하고, 제미니 앱(Gemini App), SearchAI 모드(SearchAI mode), AI 스튜디오(AI Studio), 버텍스 AI(Vertex AI) 등 여러 서비스에 제미니 3 프로(Gemini 3 Pro)를 동시에 출시했습니다. 구글은 제미니 3가 현재까지 가장 강력한 멀티모달 및 추론 모델로, 과학, 수학, 시각적 이해, 장기 계획 등 여러 주요 AI 벤치마크에서 이전 모델보다 훨씬 우수한 성능을 보였다고 밝혔습니다. 제미니 3는 바이브 코딩(Vibe Coding) 외에도 가장 강력한 에이전트 모델로, AI가 사용자의 작업 완료를 적극적으로 지원할 수 있습니다.

비녀장

구글 CEO: 제미니의 이해력은 텍스트와 이미지에서 "공기를 읽는" 능력으로 발전했습니다.

구글 CEO 순다르 피차이는 제미니 시리즈가 출시된 지 약 2년이 지난 지금, AI 제품이 전 세계 20억 명의 사용자에게 도달했다고 밝혔습니다 . 제미니의 각 세대는 이전 세대의 성과를 기반으로 구축되었습니다. 제미니 1세대는 네이티브 멀티모달리티와 긴 맥락에서 획기적인 발전을 이루어 점점 더 복잡한 정보를 처리할 수 있게 되었습니다. 제미니 2세대는 추론과 사고의 한계를 뛰어넘는 에이전시 역량의 토대를 마련했습니다.

이제, 제미니 3가 출시됩니다. 제미니 시리즈의 모든 기능을 하나로 모아 어떤 아이디어든 현실로 만들어 줄 가장 지능적인 세대의 모델입니다. 추론에서 최첨단(SOTA) 성능을 구현하여 깊이와 미묘함을 모두 완벽하게 구현합니다. 창의적인 아이디어에서 미묘한 단서를 포착하든, 복잡하고 다층적인 문제를 분석하든, 어떤 상황에서든 탁월한 성능을 발휘합니다.

제미니 3는 또한 사용자의 요청 이면에 숨겨진 맥락과 의도를 더 잘 이해하여, 힌트를 찾으려고 애쓰지 않고도 진정으로 필요한 답변을 얻을 수 있도록 도와줍니다. 놀랍게도, AI는 불과 2년 만에 텍스트와 이미지를 읽는 수준에서 장면과 상황을 이해하는 수준(공간을 읽는 수준)으로 진화했습니다.

추론 능력 혁신: Gemini 3, LMARaena, 과학 추론 및 수학 시험에서 최고 점수 획득

Gemini 3 Pro는 최신 리뷰에서 여러 기록을 경신했습니다.

LMArena는 1501 Elo 포인트로 리더보드에서 1위를 차지했습니다.
인류의 마지막 시험(학문적 추론): 37.5%(도구 없음).
GPQA 다이아몬드(과학적 추론): 91.9%.
MathArena Apex(고급 수학): 23.4%.
MMMU-Pro: 81%
비디오-MMMU: 87.6%
SimpleQA 검증됨: 72.1% (사실 정확도 향상)

이러한 결과는 Gemini 3 Pro가 과학적, 수학적, 다중 모드 추론에서 높은 신뢰성을 가지고 있으며, 이를 통해 매우 복잡한 문제를 처리할 수 있음을 보여줍니다.

Google은 Gemini 3 Deep Think 추론 모드를 동시에 출시하여 ARC-AGI-2(프로그램 실행 포함)에서 45.1%의 성능을 달성하며 추론 기능을 더욱 강화했습니다. 기타 주요 내용은 다음과 같습니다.

인류의 마지막 시험: 41.0%
GPQA 다이아몬드: 93.8%

쌍둥이자리 3: 향상된 학습, 실행 및 계획 역량

Gemini 3는 현재 가장 강력한 바이브 코딩 및 프록시 프로그래밍 모델이며, 구체적인 점수는 다음과 같습니다.

WebDev Arena: 1487 Elo(최고)
Terminal-Bench 2.0 : 54.2% (공구 조작 능력)
SWE-bench 검증: 76.2% (대규모 프로그래밍 작업)

또한 Google의 새로운 에이전트 기반 개발 플랫폼인 Google Antigravity를 지원하여 AI가 여러 단계로 구성된 작업을 스스로 계획하고, 프로그램을 작성하고, 터미널을 운영하고, 프로그램을 검증하고, 브라우저를 제어할 수 있도록 합니다. 에이전트 기반 AI는 능동적으로 조치를 취하고, 여러 단계의 작업을 계획하고, 도구를 자율적으로 운영할 수 있는 AI 시스템을 의미합니다. 핵심 개념은 AI가 더 이상 단순히 답변을 제공하는 데 그치지 않고, 마치 비서처럼 능동적으로 작업을 완료할 수 있다는 것입니다.

예를 들어, "오늘의 ETH 가격을 알아보고 Google 시트를 업데이트해주세요"라고 입력하면 Agentic AI가 자동으로 API를 확인하고 Google 시트를 업데이트합니다.

대규모 언어 모델은 사용자의 동일한 입력이 모델의 계산 방식에 따라 크게 다른 결과를 생성할 수 있음을 의미합니다. 그러나 Gemini 3는 Vending-Bench 2에서 1년 내내 일관된 의사 결정을 유지하므로 다음과 같은 측면에서 도움을 줄 수 있습니다.

지역 서비스 예약
Gmail 정리
다단계 워크플로 처리

오늘부터 Google AI Ultra 구독자는 Gemini Agent를 사용할 수 있습니다. Google은 Gemini 3가 현재까지 가장 보안이 철저한 모델로, "아첨 생성", 신속한 주입 및 사이버 공격에 대한 방어력이 강화되었다고 밝혔습니다. Deep Think 모드는 추가 보안 테스트를 완료한 후 Google AI Ultra 구독자에게 제공될 예정입니다.

리스크 경고

암호화폐 투자는 높은 리스크 수반합니다. 가격 변동이 심할 수 있으며, 원금 전액을 잃을 수도 있습니다. 리스크 신중하게 평가하시기 바랍니다.

xAI는 11월 17일 최신 모델인 Grok 4.1이 grok.com, Twitter(X), iOS 및 Android 앱을 포함한 모든 사용자에게 공식적으로 출시되었다고 발표했습니다 . xAI는 이번 업그레이드가 이전 Grok 4의 추론 능력과 안정성을 유지하면서도 더 강력한 감정 이해, 더 자연스러운 성격 표현, 더 높은 창의성, 더 낮은 환각률 등 "실제 사용성"에 중점을 두었다고 밝혔습니다.

비녀장

비밀 테스트에서 65%에 가까운 승률을 기록한 Grok 4.1이 정식 출시될 예정이라고 확정되었습니다.

xAI는 11월 1일부터 11월 14일까지 2주간 비밀 테스트를 실시하여 Grok 4.1 베타 버전의 일부를 Grok.com, X 및 모바일 앱의 실제 트래픽으로 가져와서 "블라인드 테스트 비교"를 통해 이전 Grok 4 모델과 직접 비교했습니다.

xAI는 블라인드 테스트에서 Grok 4.1이 실제 트래픽에서 선호도 지수 64.78%를 기록하며 Grok 4를 크게 앞지르는 성능을 보였다고 밝혔으며, 11월 17일부터 모든 사용자에게 공식 출시될 것이라고 발표했습니다. 또한, 이제 모든 사용자가 Grok 4.1을 사용할 수 있다고 밝혔습니다. 사용자가 자동 모드를 활성화하거나 모델 메뉴에서 수동으로 선택할 경우, Grok 4.1이 자동으로 사용됩니다.

Grok 4.1: 세 가지 주요 기술 하이라이트

Grok 4.1 기술 주요 내용 1: 완전히 새로운 강화 학습 아키텍처를 통해 응답이 보다 자연스럽고 인간과 유사해졌습니다.

Grok 4.1의 핵심 업그레이드는 Grok 4와 동일한 "대규모 강화 학습 인프라"를 사용하는 데서 비롯되지만, 이번에는 모델이 더 큰 규모에서 자동으로 응답을 최적화할 수 있도록 하는 새로운 방법을 도입했습니다. 이 훈련은 톤, 페르소나 일관성, 정서 상호작용, 의도 이해와 같이 데이터만으로는 직접 평가할 수 없는 검증 불가능한 응답 품질에 중점을 둡니다.

이 문제를 해결하기 위해 xAI는 보상 모델로 "첨단 추론 모델"을 채택했습니다. 이를 통해 심층 추론 기능을 갖춘 AI는 Grok 4.1의 응답을 자동으로 평가하고, 대량 비교를 통해 무엇이 더 좋고 인간이 기대하는 답변인지 학습하여 그에 따라 조정할 수 있었습니다. 그 결과, Grok 4.1은 원래의 추론 능력과 안정성을 유지하면서 어조, 성격, 정서, 그리고 상호작용의 자연스러움 측면에서 상당한 개선을 보였습니다.

Grok 4.1 기술적 하이라이트 2: 정서 이해와 창의성이 크게 업그레이드되어 모든 블라인드 테스트 평가에서 최고 수준을 달성했습니다.

xAI는 또한 여러 테스트 결과를 공개했는데, 이를 통해 Grok 4.1이 여러 기능 테스트에서 상당한 개선을 이루었다는 것을 알 수 있습니다.

LMARaena 글로벌 블라인드 베타 게임 플랫폼에서:
- Grok 4.1 Thinking은 1483개의 Elo 등급으로 세계 1위를 차지했습니다.
- Grok 4.1 Non-Thinking은 1465 Elo 로 2위를 차지했으며, 다른 모델의 "전체 추론 모드"를 능가하기도 했습니다.
정서 이해 테스트(EQ-Bench 3): 이 테스트는 45개의 도전적인 시나리오와 3회의 상호작용으로 구성되며, 클로드 소네(Claude Sonnet)는 3.7점을 부여했습니다. Grok은 4.1점을 부여하여 공감, 정서 통찰, 대인 관계 이해에서 상당한 향상을 보였습니다.
창의적 글쓰기 v3: 32개 문제로 구성된 3라운드 글쓰기 테스트에서 Grok 4.1은 공식 문서에 여러 샘플 응답이 표시되어 있으며, 글쓰기 스타일, 내러티브 품질, 스토리 흐름 측면에서 더 높은 점수를 받았습니다.

전반적으로 Grok 4.1은 추론 능력을 향상시킬 뿐만 아니라, "감정적 상호작용"과 "창의적 능력"에서도 상당한 업그레이드를 보여줍니다.

그림에서 볼 수 있듯이 Grok 4.1은 추론 모델, 정서 이해, 창의적 글쓰기 부문의 전체 순위에서 상위 3위에 올랐습니다.

(참고: Elo는 체스에서 원래 사용된 Elo 랭킹 시스템을 사용하여 모델 응답의 질을 평가하는 글로벌 블라인드 테스트 플랫폼 LMARaena에서 Grok 4.1의 파워 점수를 나타냅니다.)

Grok 4.1 기술 하이라이트 3: AI 환상이 3배 감소하고, 정보 출처의 신뢰성이 높아졌습니다.

일반적인 정보 검색 문제에 대해 xAI는 Grok 4.1에서 착시 현상이 현저히 감소한 것을 특히 강조합니다. 이전에는 Gork의 고속 모드(비추론)가 추론 깊이 부족으로 인해 착시 현상이 발생하기 쉬웠지만, xAI는 4.1 이후 학습 과정에서 이 문제를 명시적으로 해결했습니다. xAI의 검증 방법은 다음과 같습니다.

우리는 사용자가 실제 상황에서 실제로 묻고 플랫폼에 실제로 나타나는 질문을 기반으로 샘플링 테스트를 진행합니다.
Grok 4.1과 이전 모델 간의 응답 차이를 비교해보세요.
FActScore로 성과를 평가합니다.

그 결과, 새 버전은 사실 검색 및 정보성 질문에 대한 답변 시 착각률을 크게 줄였으며 , 답변의 안정성과 신뢰성이 더욱 향상되었습니다. 이러한 결과로 Grok 4.1은 "빠른 답변" 및 "데이터 검색" 상황에서 이전 버전보다 더욱 실용적이고 정확해졌습니다.

그래프에서 볼 수 있듯이 Grok 4.1의 환각률은 12.09%에서 4.22%로 약 3배 감소했습니다. 사실 검증 점수(FActScore)도 9.89%에서 2.97%로 감소하여 Grok 4.1의 정확도가 크게 향상되었음을 보여줍니다.

(참고: FActScore는 500개의 실제 전기적 질문으로 구성된 공개 테스트로, 사실 발견, 판단 정확도, 답변 일관성 측면에서 모델의 성능을 평가하는 데 사용됩니다. 검증 사실 점수라고도 합니다.)

리스크 경고

암호화폐 투자는 높은 리스크 수반합니다. 가격 변동이 심할 수 있으며, 원금 전액을 잃을 수도 있습니다. 리스크 신중하게 평가하시기 바랍니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트