구글의 새로운 제미니 유출, LMArena 테스트: 차트를 이해할 수 있는 유일한 AI, GPT-5의 무작위 답변

이 기사는 기계로 번역되었습니다
원문 표시

구글 제미니 3.0이 LMArena에 출시될 것으로 예상됩니다! 실제 테스트 결과는 이미 많이 공개되었지만, 그 결과를 평가하기는 어렵습니다.

제미니 3.0에 대한 소문은 오랫동안 있었지만, 마침내 공개되었습니다.

LMAreana 경기장에서는 Gemini 3.0의 두 가지 "변장"이 드러났습니다.

  • Gemini 3.0 Pro의 조끼: 리튬플로우
  • Gemini 3.0 플래시 별칭: orionmist

이건 "전통적인 기술"이 되었습니다. 새 모델이 출시될 때마다 LMArena에 가서 추진력을 얻어야 합니다 .

하지만 경기장에서 실제 테스트 결과를 보니, Gemini 3는 정말 좋은 성능을 보여주는 것 같습니다. 이번에는 Google이 OpenAI를 따라가지 않고 좀 더 강력한 모습을 보여주었으면 좋겠습니다!

제미니 3의 일부 프런트엔드 케이스가 이전에 유출된 적이 있으며, 네티즌들은 구글의 차세대 플래그십 모델이 10월 22일 에 출시될 것이라는 소식을 전했습니다.

내부 테스트 자격을 취득한 일부 개발자가 몇 가지 데모를 공개했습니다.

하지만 이번에는 LMArena 경기장에서 직접 출시되었습니다.

Gemini 3 해킹 사건을 우연히 목격한 사용자들이 자신의 경험을 공유해 주셨습니다. 여러분도 운이 좋으시다면 Gemini 3의 성능이 크게 향상되었는지 공유해 주세요.

AI가 처음으로 시계를 이해하다

"시계를 읽는 것" 을 실제로 측정하는 것은 AI에게 항상 큰 과제 였습니다. 여기에는 시계의 스타일, 바늘의 길이와 방향, 분 간격 판단 등 많은 요소가 관련됩니다.

그러나 Gemini 3 Pro(lithiumflow)를 사용한 실제 테스트에서는 이 모델이 시간(6), 분(02), 초(30)까지 정확할 수 있음을 보여줍니다.

같은 문제에 대해 GPT-5 Thinking은 약간 이상하게 작동하여 12:30으로 직접 인식하여 시침과 분침을 혼동했습니다.

Gemini 2.5 Pro로 테스트했을 때도 똑같은 일이 일어났습니다. 모델로는 시계 시간을 알아내기가 정말 어려웠습니다.

비교해 보면, LMArena의 다른 비탑 모델들은 훨씬 더 "미쳤다".

게다가 저는 LMArena에서 여러 번 테스트했지만 Gemini 3 조끼를 본 적이 없습니다.

만약 제미니 3의 경기장에서의 뛰어난 능력이 사실이라면, 제미니 3은 정말 기대할 만한 가치가 있습니다!

SVG: 자전거를 타는 펠리컨

새로운 모델이 나올 때마다 SVG 테스트 는 불가피합니다.

Gemini 3 Pro의 SVG 테스트 결과는 첫눈에 보기에 매우 좋습니다.

그림의 표현력이 이전보다 훨씬 향상되었고, 심지어 약간 '추상적인' 스타일이 생겼다는 것을 알 수 있습니다.

물론 자전거를 탄 펠리컨을 피할 수는 없겠지만, 적어도 이번에는 자전거가 정말 잘 그려져 있습니다.

그러나 불평할 만한 점 하나는 이 인터넷 밈 "자전거를 탄 펠리컨"이 새로운 모델을 테스트하기 위한 농담으로 전락했을지도 모른다는 것입니다.

그래서 각 모델은 이 프롬프트 단어에 맞춰 조용히 미세 조정을 해 온 것 같습니다.

예를 들어, 다음 두 가지 경기장 예시는 SVG 사용을 강조하지 않습니다.

SVG 사용이 강조되었음에도 불구하고 효과는 여전히 "완벽"합니다. 반면, Gemini 3가 그린 것은 보기 좋지 않고 효과도 평범합니다.

최초의 괜찮은 구성 모델

또 다른 주요 업데이트는 Gemini 3 Pro가 음악을 작곡할 수 있다는 것입니다.

음악 스타일을 모방하고, 오랫동안 박자를 유지하며, 에너지와 변화를 가져올 수 있습니다.

이 음악 효과에 대해 어떻게 생각하시나요?

현재 대부분의 실제 테스트는 LMArena에서 진행되고 있습니다.

(그런데 100개 가까이 되는 프롬프트를 살펴봤는데도 제미니 3는 아직 만나지 못했어요)

그러면 왜 우리는 이 두 조끼가 제미니 3의 실제 테스트된 코드라고 판단하는 걸까요?

일부 사람들은 "오리온" 자체가 제미니 3 과 관련이 있을 수 있다고 말하며, 구글은 " 오리온미스트 "라는 두 단어를 결합한 방법을 사용할 것입니다.

Gemini 3가 LMArena에 출시되기 전, 다양한 내부 테스트를 통해 매우 강력한 것으로 나타났습니다.

HTML도 전체 macOS와 Windows 시스템의 UI 상호작용과 호환될 수 있습니다.

Gemini 3 Pro는 SVG를 사용하여 단 1분 만에 전체적인 스타일의 애니메이션을 만들 수 있습니다.

애니메이션의 일부를 캡처했는데, 그 효과가 꽤나 "허세"를 부리는 것처럼 보입니다.

하지만 일부 사람들은 만족스럽지 못한 테스트 결과를 경험하기도 했습니다.

Google이 Gemini 2.5를 출시한 지 거의 1년이 흘렀고, 이제 모든 주요 기술 회사가 OpenAI의 움직임을 주시하고 있습니다.

OpenAI가 GPT-5와 새로운 버전의 Sora 2를 선보인 후, Google은 Veo 3.1을 선보였습니다.

LMArena에서 이번 출시는 출시 전 테스트일 가능성이 높고, Gemini 3도 곧 출시될 예정입니다!

일반적으로 모델은 표를 읽고, SVG를 그리며, 음악을 작곡하는 등 훨씬 더 강력해졌지만, AI 분야 전체의 "전통적인 기술"은 점점 더 고정화되고 있습니다.

먼저 소문이 퍼지고, LMArena에 올라가고, 많은 사람들이 진짜 물건을 식별하고 SVG를 테스트하여 어느 것이 진짜 물건과 더 비슷한지 확인하려고 합니다.

너무 많이 보면 좀 지루해요.

결국, 제미니 3이든, GPT-5이든, 아니면 새로운 버전의 클로드이든, 결국은 "실제 스크린샷 + 즉각적인 비교 + 그림 설명"의 동일한 세트입니다.

모델은 점점 더 똑똑해지고 있지만, 우리의 평가 방법은 여전히 오래된 방식에 갇혀 있는 듯합니다.

다음 번에는 모델이 더욱 강력해질 뿐만 아니라, 몇 가지 새로운 기술을 선보일 수 있기를 바랍니다.

참고문헌

https://x.com/synthwavedd/status/1979969871921225881

https://x.com/ai_for_success/status/1979980654713696340

https://x.com/scaling01/status/1979996937743954101

https://x.com/scaling01/status/1979996937743954101

본 기사는 위챗 공개 계정 "신지위안" 에서 발췌하였으며, 저자는 Dinghui이고, 36Kr.의 출판 허가를 받았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트