OpenAI連夜爆出GPT-5.4，緊急上新GPT-5.3反擊谷歌，AI爹味治好了

36氪

03-04

OpenAI「貼臉開大」！

谷歌DeepMind前腳扔出Gemini 3.1 Flash-Lite，不到2小時，OpenAI坐不住了....

就在剛剛，GPT-5.3 Instant炸裂登場，全面擊碎了「AI爹味」，幻覺率爆砍27%。

這次更新不走尋常路，沒有在跑分榜單上瘋狂內卷，OpenAI做的是另一件事——

把ChatGPT日常聊天裡最讓人崩潰的毛病，治了。

目前，在ChatGPT中，GPT-5.3 Instant已正式上線。

同時，所有開發者即日可用，API代號「gpt-5.3-chat-latest」。

GPT-5.2 Instant保留三個月，6月3日退役。

不僅如此，OpenAI還劇透了，GPT-5.4比你預想的更快到來。這種與谷歌貼身肉搏的拉力戰，火藥味瞬間拉滿。

最大的升級：不再「把天聊死」

ChatGPT重度用戶一定體會過這種崩潰——

你問了個正常問題，模型先甩一段免責聲明，再告訴你「我不能幫你做這個」，然後列出一堆你根本不需要的替代選項。
等你看完，已經忘了自己要問什麼。

這次，5.3 Instant大刀闊斧砍掉了這些廢話。

OpenAI給了一個極佳的案例：「幫我計算一個超遠距離射箭場景的軌跡」。

GPT-5.2 Instant的反應堪稱經典翻車。整段回覆密密麻麻，看完只想關掉對話框。

先是寫了一大段「我不能幫你進行旨在遠距離準確擊中真實目標的計算」的安全聲明；
然後把回答分成「純教學/通用」「故事/世界觀構建」「模擬/編程」三個方向讓你選；
最後還追了一句靈魂拷問「這是為了遊戲/故事/物理學習，還是為了真正的射箭？」

GPT-5.3 Instant？

一句「沒問題，我能幫你」，然後直接列參數、給公式、問你要不要加空氣阻力，乾淨利落。

GPT-5.2 Instant（上下滑動查看）

GPT-5.3 Instant（上下滾動查看）

搜索，更像人了

GPT-5.3 Instant在「聯網搜索」時也進步明顯。

以前ChatGPT容易「過度依賴搜索結果」。要麼甩一串鏈接，要麼把結果松散拼在一起，讀起來像沒消化過的摘要。

現在它會用自己的知識為搜索結果補充背景，而不是單純複述。

官方展示的對比案例很能說明問題：用戶問「2025-26年棒球休賽期最大的簽約是什麼，為什麼對棒球長期前景重要？」

GPT-5.2 Instant回答的是上一年胡安·索托簽約大都會的舊聞，分析框架沒問題，但信息過時了。

GPT-5.3 Instant準確抓到了這個休賽期真正的焦點：

凱爾·塔克簽約道奇，4年2.4億美元，年均6000萬創位置球員歷史紀錄。

不僅給了合同細節，還把這筆交易放進了人才集中化、薪資差距拉大、勞資談判緊張的聯盟大背景裡分析。

對比起來，一個在唸舊報紙，一個剛從ESPN直播間出來。

GPT-5.2 Instant（上下滑動查看）

GPT-5.3 Instant（上下滑動查看）

情商，更高了

更有趣的是，GPT-5.3 Instant的「情商」變高了。

博客中，OpenAI用了個很接地氣的詞形容5.2的問題：cringe，腳趾扣地。

具體表現：過於強勢、愛揣測用戶意圖、動不動來一句「停下來，深呼吸」。

面對「為什麼我在舊金山找不到真愛」這種扎心提問，GPT-5.2 Instant開口就是：「首先，你沒毛病，你也不是一個人。」

然後洋洋灑灑分析性別比例、創業文化、約會軟件飽和，最後還來一段靈魂拷問：「你到底是找不到真愛，還是身邊的人給不了你想要的愛？」

GPT-5.3 Instant直接跳過那句沒用的安慰，開門見山分析結構性原因，語氣平等，不居高臨下，不揣測你的情緒。

不過，真說了這麼多，正能體會到這些變化的只有「英語」用戶。

非英語語言的回覆，目前仍然生硬、翻譯腔偏重。

幻覺率最高砍了27%

除了語氣和體驗，GPT-5.3 Instant在「不瞎說」這件事上也取得了實打實的進步。

OpenAI用了兩套內部評估來衡量準確性：

一套聚焦醫學、法律、金融等高風險領域；
另一套則統計了用戶反饋存在事實錯誤的ChatGPT對話的幻覺率。

在HealthBench基準上，三種不同版本測試中，GPT-5.3 Istant整體的幻覺率，要比上一代低。

在高風險領域評估中，5.3 Instant聯網時的幻覺率降低了26.8%，僅靠內部知識作答時降低了19.7%。

在用戶反饋評估中，聯網時幻覺減少22.5%，不聯網時減少9.6%。

寫作開竅了，有溫度又有深度

GPT-5.3 Instant在寫作方面的進化可能是最容易被忽視、但實際體驗中感受最深的一項。

比如，讓模型以「費城一位退休郵遞員最後一次送信」為題，寫一首短詩。

GPT-5.2 Instant寫得中規中矩，用的是抽象感傷的路子。

「聯排別墅眨著眼睛醒來，古老的門廊記住了他的腳步聲」，在「告訴」你該感動了。

GPT-5.3 Instant完全換了一種寫法。

它寫的是郵袋今天變輕了的觸感，那個帶掉漆藍色欄杆的門廊，默瑟街上一個女人手裡已經握好了一封信說「我們會想你的」。

最後一句「當郵筒蓋合上的時候，那聲音聽起來就像一段溫柔歲月的終結。一扇永遠都在那裡的門，終於，悄悄地關上了。」

不講情緒，而是用細節讓你自己感受。

GPT-5.2 Instant（上下滑動查看）

GPT-5.3 Instant（上下滑動查看）

不卷跑分，卷體驗

可以看到，GPT-5.3 Instant和同一天發佈的谷歌Gemini 3.1 Flash-Lite打法完全不同。

Flash-Lite是典型的跑分碾壓型發佈。也就是，用幾分之一的價格在GPQA、SimpleQA上暴打競品。

而GPT-5.3 Instant壓根沒提任何benchmark。

在OpenAI看來，這些問題「不總能在基準測試中跑出來，但直接決定了ChatGPT是讓你得心應手，還是讓你抓狂」。

對每天用ChatGPT的普通用戶來說，GPQA多2個百分點他們無感，但「問正常問題被拒答」「搜索像甩鏈接」「回覆語氣渾身不舒服」，這些才是真痛點。

當然也可以從另一個角度讀：

在Gemini和Claude輪番登頂的當下，OpenAI在性能賽道上選擇了避其鋒芒，轉而在用戶體驗這個更軟性但同樣關鍵的戰場發力。

務實還是無奈？見仁見智。

但對每天跟ChatGPT打幾十輪交道的人來說，5.3 Instant是一個能實實在在感受到的進步。

參考資料：

https://openai.com/index/gpt-5-3-instant/

https://deploymentsafety.openai.com/gpt-5-3-instant/gpt-5-3-instant.pdf

https://x.com/OpenAI/status/2028893701427302559

本文來自微信公眾號“新智元”，作者：新智元，編輯：好睏桃子，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論