谷歌Gemini突發試驗版模型，重回競技榜第一，新版GPT-4o只領先了1天

11-22

谷歌和OpenAI又槓上了。

在新版GPT-4o剛登頂競技榜後1天，立馬發佈最新試驗版模型Gemini-Exp-1121奪回冠軍寶座。

要知道，一週前上一版模型Gemini-Exp-1114才發佈。

這怕不是拿準了OpenAI會來爭擂臺，故意留了一手。

這就是引誘OpenAI發新版GPT-4o，然後再用更好的模型來狙擊它。

谷歌的研究人員們顯然很得意。

谷歌DeepMind首席科學家Jack Rae，稱這是一場有趣的後訓練“閃電戰”。暗示post-training的迭代速度要比預訓練快得多。

DeepMind研究副總裁Oriol Vinyals還隔空發問奧特曼：最近還有提交計劃嗎？

火藥味很足，也很自信啊。

所以“1121”有多強？來看具體性能。

代碼/推理/視覺理解全提升

按照官方說法，Gemni-Exp-1121重點提升了三方面性能。

代碼能力顯著提升

更強推理能力

更強視覺理解能力

除了風格控制外，其他方面目前都位於第一。

在視覺能力方面，Gemini-Exp-1121比上一版還有提升。

風格控制下的複雜提示詞方面，Gemini-Exp-1121和o1-preview、New Sonnet 3.5水平相當。

競技場中的實際勝率如下。

現在也能直接上手體驗。

比如針對同一張漫畫，讓Gemini-Exp-1121和GPT-4o-lastest-1120給出理解。

Gemini-Exp-1121的回答更加全面且詳細，並且善用小標題、重點加粗。

新版4o的回覆就比較簡短和籠統。

在經典的動物過河邏輯推理題上，Gemini-Exp-1121回答完全正確，新版4o出現了一些失誤，把第三次過河和第四次過河合併了，因此回答有誤。

問題：農夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農夫該如何過河。

One More Thing

值得一提的是，OpenAI這邊也有新消息。

有人在ChatGPT最新測試版本中首次發現了“實時攝像”（Live Camera）視頻功能的代碼。

它具體包括實時錄像、實時處理、語音模式集成以及視覺識別能力。

在高級語音模式推出時，一些用戶有體驗到這一能力。

這意味著OpenAI已經做好了上線這一功能的準備。

另一邊谷歌也演示過類似的demo，還沒上線。按照OpenAI的調性，很可能會搶在谷歌前全量鋪開。

或許等到明年，和Chatbot的主要交流方式，就要從文字對話轉為語音和agent了。Live Camera可能就是開始，你覺得呢？

參考鏈接：

[1]https://x.com/OfficialLoganK/status/1859667244688736419

[2]https://x.com/adonis_singh/status/1859682100569571399

[3]https://x.com/OriolVinyalsML/status/1859730969600852222

[4]https://x.com/rowancheung/status/1859301345993556277

本文來自微信公眾號“量子位”，作者：關注前沿科技，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

收藏

評論

分享

相關推薦

5.5萬美元，將是比特幣的生死線

麻吉大哥虧慘一夜沒睡？以太坊跌破2000鎂慌了，開倉做多ETH、HYPE 割肉12萬鎂全輸光

Citadel、Ark Invest 和 Tether 支持 LayerZero上線Zero區塊鏈——價格 Z...