GPT-5.6首批實測來了,精準狙擊Mythos

avatar
36氪
06-10

剛剛,Anthropic放出藏了倆月的大殺器——Claude Fable 5Mythos 5,無異於扔下一枚炸彈。

現在壓力直接給到OpenAI。

同一時間,GPT-5.6也洩露了。

上週開始,OpenAI已測試內部代號為keplerkindle的兩個新檢查點。kindle-alpha被曝已選為發佈候選。

GPT-5.6的內部測試版本,開始在海外開發者和洩露圈裡被瘋狂實測。代號、候選版本、跑分體感,全被翻了出來。

無論是爭搶IPO,還是旗艦模型撞車,兩家「你遞表我也遞表」「你發新模型我也發新模型」。

純純是打得不可開交。

但問題是,GPT-5.6真的能打過Mythos嗎??

GPT-5.6浮出水面

截至目前,OpenAI對GPT-5.6還是零官宣,尚未正式發佈。

不過,海外不少網友已經對還沒公開的「內部檢查點」做了探針測試。

所謂檢查點(checkpoint),就是模型在訓練過程中某個時間點存下的一份參數快照。

OpenAI內部會存很多份,橫向比較,再從裡面挑一個認為「夠好、可以拿去發」的版本,這個版本就叫發佈候選版(RC)。

從上週開始,OpenAI內部正在測兩個新檢查點,代號分別是kindle和kepler。其中kindle-alpha被選為發佈候選版。

從流出的體感來看,GPT-5.6這次最被反覆提及的升級,是前端/UI生成

網友Pankaj Kumar的說法是,kindle-alpha的前端生成能力大幅提升,不需要複雜的提示詞或額外技巧,就能直接產出更強的界面輸出

此外,它的視覺能力也很能打,在圖像理解和圖像引用類任務上表現不錯,整體在推理、編碼、UI生成上都有明顯改善。

這是網友Chris實測kindle的效果,使用medium檔位:

而這是另一位網友此前在非推理版本Joule上實測的效果:

可以看出前者精美很多。

但網友Leo拿同一個prompt、在xhigh檔位上分別實測了kepler和kindle兩個版本。

發現kindle比起kepler,反而還退步了。

嗯…這效果確實很難評。

他甚至判斷,OpenAI很可能還會繼續打磨,不排除最後棄用kindle這個候選版

最新消息是,kindle已被移出Arena,出現了一個新模型Levi

有網友猜測Levi也可能是GPT-5.6內部版本的一個代號,並對比了它和GPT-5.5的前端能力:

可以看出Levi的前端也挺能打的,風格清爽簡約,富有高級感,細節處理也很到位。

不過有網友調查後發現,Levi可能來自Meta,而非GPT-5.6。

那麼,GPT-5.6究竟能打過Mythos嗎?

網友mark_k聲稱,GPT-5.6「在多個agentic coding基準上擊敗Mythos」。

但目前來看,更有說服力的是前面展示的網友Leo的實測。他認為GPT-5.6的情況不容樂觀:

kindle相比kepler是退步。以它目前的形態,會被Mythos輕鬆擊敗

6月,上演御三家「速度與激情」

6月,夏天來了,大模型圈也是火熱起來了。

海外AI御三家的模型發佈時間全撞在了一起:Fable 5、Gemini 3.5 Pro、GPT-5.6,上演了一出「生死時速」。

而且打的是同一批能力——推理、智能體、編碼、前端生成。

有意思的是,三家雖然都把節點壓在6月,但到現在真正把卷子交上來的,只有A社一家

Gemini 3.5 Pro在5月19日的谷歌I/O大會上亮相,主打200萬token上下文和Deep Think推理。

但還未正式上線,官方定於6月正式可用。

GPT-5.6,消息傳出是本月晚些時候發佈

這也給OpenAI的處境添了一層張力:對手已經把分數貼出來了,內部可能還在為該交哪一版RC糾結。

但除了跑分,定價也是一個重要因素。

Fable 5和Mythos 5統一定價為每百萬輸入Token10美元、每百萬輸出Token50美元。

約為現有Opus的兩倍。

如果GPT-5.6在能力上和Mythos打平甚至略輸,但價格便宜得多,那它在真實採用率上還是有可能扳回一城的~

目前,OpenAI還未有任何官方公告,真正的對決要等GPT-5.6正式版和Fable正面跑分那一刻——

這個月內大概率見分曉,敬請期待吧~

參考鏈接:

[1]https://x.com/mark_k/status/2063922897341567488?s=20

[2]https://x.com/AiBattle_/status/2064078302394917157?s=20

[3]https://x.com/pankajkumar_dev/status/2063272015214354908?s=20

[4]https://x.com/synthwavedd/status/2063245096951160865?s=20

[5]https://x.com/ChrissGPT/status/2063135842906808579?s=20

[6]https://x.com/koltregaskes/status/2062806155139912164?s=20

本文來自微信公眾號“量子位”,作者:聽雨 ,36氪經授權發佈。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論