谷歌新版Gemini馬甲被扒,LMArena實測:唯一能看懂表的AI,GPT-5亂答

谷歌的Gemini 3.0疑似上線LMArena!眾多實測提前曝光,但效果嘛,很難評。

Gemini 3.0傳了這麼久,終於還是露出「馬腳」了。

依然還是LMAreana競技場,Gemini 3.0的兩個「馬甲」被扒了出來。

  • Gemini 3.0 Pro的馬甲:lithiumflow
  • Gemini 3.0 Flash的馬甲:orionmist

這已經是「傳統藝能」了,每次新模型上線,都要去LMArena上去造勢一番。

不過看了競技場的實測結果,Gemini 3確實是真的有點東西,希望谷歌這次別再跟著OpenAI跑了,硬氣一把!

此前Gemini 3的一些前端案例就曾流出,網友爆料稱,谷歌下一代旗艦模型將在10月22日發佈。

一些拿到內測資格的開發者,放出了部分demo。

不過這次是直接上線在LMArena競技場裡了。

「幸運」碰到Gemini 3馬甲的用戶分享了他們的例子,如果你也運氣好,可以分享一下Gemini 3的表現是否有大幅度的提升。

AI第一次看懂鐘錶

實測「看錶」一直是AI的大難題,這裡面涉及多種因素,鐘錶樣式、指針長短、指向、分鐘間隔的判斷等等。

不過Gemini 3 Pro(lithiumflow)的實測看出,這個模型已經可以精確到小時(6)、分鐘(02)和秒(30)。

同樣的問題,GPT-5 Thinking就有點「發癲」,直接識別成了12:30,有點時針、分針不分了。

用Gemini 2.5 Pro實測也是同樣發癲,模型真的很難分辨時鐘時間。

作為對比,LMArena中其他非頂級模型,「發癲」程度要更甚。

另外,在LMArena中實測了N次,一直沒有碰到過Gemini 3的馬甲。

如果競技場裡Gemini 3的馬甲能力是真的,那確實Gemini 3還是非常值得期待!

SVG實測傳統藝能,騎自行車的鵜鶘

新模型每次一出來,SVG測試是躲不開的。

Gemini 3 Pro的SVG測試效果,初看還是很不錯的。

畫面表現能力比之前測試的提升了不止一點,能看出甚至具有一點「抽象派」的風格。

當然,騎自行車的鵜鶘是永遠躲不過的,起碼這次自行車畫的是真不錯。

不過需要吐槽的一點是,可能這個互聯網模因meme「騎自行車的鵜鶘」成為了一個測試新模型的梗。

所以,各家模型似乎都悄悄的針對這個提示詞,進行了微調。

比如下面這兩個競技場例子,不過沒有強調使用SVG。

即使強調了使用SVG,效果依然很「完美」,相比之下Gemini 3畫出來的反而不好看,效果一般。

第一個相當體面的作曲模型

另外一個大更新就是Gemini 3 Pro可以作曲了。

能模仿音樂風格,能長時間保持節奏,並帶來一些活力和變奏。

你覺得這個音樂效果如何?

目前大部分實測還是在LMArena碰運氣。

(順便吐槽一下,跑了快100個提示了,還是沒碰到Gemini 3)

那為什麼判斷這兩個馬甲就是Gemini 3的實測代號呢?

有人說「Orion」本身可能和Gemini 3有關,而且「orionmist」這種兩個單詞合成方法是谷歌會使用的。

此前,Gemini 3沒上LMArena時,就有各種內測覺得這個很厲害。

甚至可以一個HTML符合整個MacOS、Windows系統的UI交互。

甚至只有1分鐘,Gemini 3 Pro就能用SVG做出一整個風格動畫。

截取了部分動畫,這個效果看起來還是挺「唬人」的。

不過,也有部分人遇到的實測效果並不理想。

谷歌的Gemini 2.5發佈也快一年,目前各個大科技廠都盯著OpenAI的動作。

在OpenAI打出GPT-5和新版Sora 2兩張牌以後,谷歌只跟了一張Veo 3.1。

這波上線LMArena的估計是發佈前的試水了,Gemini 3應該很快了!

總的來說,雖然模型確實強了不少,能看錶、能畫SVG、還能作曲,但整個AI圈的「傳統藝能」也越來越固定了——

先傳風聲、再上LMArena、然後一堆人去撞馬甲、測SVG、看誰更像真貨。

看多了也不免有點膩。

畢竟,無論是Gemini 3、GPT-5還是Claude新版本,最後都還是那一套「實測截圖+prompt對比+看圖說話」。

模型越來越聰明,但我們的評測方式似乎還停在老套路上。

希望下一次,不只是模型更強,而是真的能玩出點新花樣。

參考資料

https://x.com/synthwavedd/status/1979969871921225881

https://x.com/ai_for_success/status/1979980654713696340

https://x.com/scaling01/status/1979996937743954101

https://x.com/scaling01/status/1979996937743954101

本文來自微信公眾號“新智元”,作者:定慧,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論