小杯Gemini戰勝GPT5.2,1分鐘模擬Windows操作系統

谷歌丟出Gemini 3 Flash,給AI圈示範了啥叫:小孩子才做選擇題,成年人當然是全都要(doge)。

一個公式來形容這款新模型:Gemini 3 Flash=Pro級智能+Flash級速度+更低價格

比速度,它幾乎是Gemini 2.5 Pro的3倍,實測更是絲滑到起飛:

比智能,它更是在多個經典測試中,戰勝了包括Gemini 3 Pro、GPT5.2在內的一眾頂尖模型。

數圖中有多少根手指,GPT5.2張口就來“5根”,而Gemini 3 Flash成功識破陷阱並給出正確答案“6根”。

畫一張騎車的鵜鶘,Gemini 3 Flash(右上)的表現明顯優於Gemini 2.5 Pro(左)和Gemini 3 Pro(右下),而且這些還都是反覆測試後抽取的最佳結果。

考察眼力環節,看模型們是否認識“谷歌宣傳委員”Logan kilpatrick。

Gemini 3 Flash率先答對,而Gemini 3 Pro將他誤認為Gemini前負責人Jack Krawczyk(已於今年4月離職並轉投Meta)。

在更多測試中,Gemini 3 Flash都展示出自己不俗的綜合實力。

雖然叫“Flash”,但其實是谷歌迄今最強智能體模型

敲黑板,這款模型即日起已面向全球所有用戶推出

普通用戶可通過Gemini應用以及谷歌搜索的AI模式使用;專業開發者可在Google AI Studio、Gemini CLI以及谷歌全新的智能體開發平臺Google Antigravity中,通過Gemini API進行調用和集成。

同時,企業客戶也可通過Vertex AI和Gemini Enterprise兩大平臺獲取其服務。

整體而言,Gemini 3 Flash還是繼承了Gemini 3 Pro的複雜推理能力、多模態和視覺理解能力、Vibe編程能力,以及處理智能體任務的能力,只不過響應速度更快。

谷歌官方表示,這是他們迄今為止“在智能體工作流程方面最出色的模型”。

話不多說,我們這就看看Gemini 3 Flash能做什麼以及實際表現如何?

比如讓它創建一個功能完整、美觀的Windows操作系統,核心環節幾乎用時不到一分鐘(視頻未加速)。

分享該測試的網友表示,“這是一款令人歎為觀止的模型”。

還能用來直接生成遊戲,網友所使用的提示詞如下:

用代碼為我創建一個《俠盜獵車手6》遊戲,並儘可能使其逼真,添加您選擇的任何功能。

遊戲的感覺有了,只不過畫面仍有一定提升空間。

不過如果換成一些難度稍低一點的小遊戲,效果倒還不錯。

而用它來生成一張天氣卡的效果be like:

肉眼可見設計更高級,並且交互效果更豐富。

最後我們簡單上手實測一下,讓它給自己生成一個介紹網站。

經過實測,網站上面的測速功能可以正常使用,不只是個空有前端的“花架子”:

而且點擊“立即體驗”按鈕後,也確實能跳轉到Gemini的官網網頁。

這波看下來,你覺得Gemini 3 Flash表現如何?

性能速度雙雙超越2.5 Pro,價格卻低得多

此外,官方測評顯示,Gemini 3 Flash主打一個“加速不降智”

性能上不僅顯著超越Gemini 2.5 Pro,而且在專業多模態測試MMMU Pro、複雜推理測試ARC-AGI-2等方面,還能略勝Gemini 3 Pro。

更重要的是,它還在性能、成本和速度方面突破了帕累託極限——速度比Gemini 2.5 Pro快3倍,平均使用的token數量卻少30%

價格方面,Gemini 3 Flash相比前幾代模型更具性價比。

其每百萬輸入token為0.5美元,每百萬輸出token為3美元(音頻輸入價格仍為每百萬輸入token 1美元)。

雖然略貴於Gemini 2.5 Flash(每百萬輸入0.3美元/每百萬輸出2.5美元),但考慮到其性能和速度,這一價格仍然相當具有吸引力。

(Gemini 2.5 Pro價格為,每百萬輸入1.25美元/每百萬輸出10美元。)

至此,谷歌Gemini 3算是集齊了全部家族成員,包括之前的Pro和Deep Think深度思考版。

而且說到思考模式,根據開發者文檔,這次的Gemini 3 Flash一共有四檔思考模式——minimal、low、medium、high

只需看一眼圖片效果演進,你就知道這幾檔的區別了(doge):

One More Thing

有意思的是,Gemini 3 Flash發佈後,谷歌這邊還立馬開了一個《寶可夢:水晶版》的直播。

兩位對戰選手分別是Gemini 3 Flash和Gemini 3 Pro

雖然最終結果還沒有出來,但初步來看Gemini 3 Pro暫處於領先地位。

有網友還驚喜發現,Gemini 3 Pro在遊戲中似乎已經展現出某種系統級思考能力

感興趣的童鞋也可以蹲一波結果了~以及坐等一個反轉。

參考鏈接:

[1]https://x.com/OfficialLoganK/status/2001428651121025391?s=20

[2]https://x.com/simonw/status/2001424152763470238?s=2

[3]https://blog.google/products/gemini/gemini-3-flash/

本文來自微信公眾號“量子位”,作者:關注前沿科技,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論