全網首份GPT-5聊天記錄曝光了!
智東西8月4日報道,今天,OpenAI首席執行官Sam Altman在X平臺上發出了GPT-5的對話記錄,提前劇透了GPT-5的使用體驗。
對話中,Altman讓GPT-5給他推薦幾部以AI為主題、最引人深思的電視劇,GPT-5向Altman發送了一部片單,位列第一的正是Altman發文推薦的美劇《萬神殿(Pantheon)》。
Altman還發推稱,軟件即服務(SaaS)行業將很快進入“快時尚”時代,這或許意味著,即將發佈的GPT-5會給軟件開發流程帶來深刻影響,顯著提升軟件的迭代速度,並降低開發成本。
不過,不少網友們對GPT-5的這一表現並不買賬。可以看到,GPT-5在其回答中使用了大量破折號,這是廣受用戶詬病的“AI味兒”的來源之一。
此外,GPT-5並沒有進行推理,這導致其反思能力有限,推薦的第二部劇便偏離了一開始的要求,與AI無關,反倒是和量子計算扯上了關係。
在評論區中,一條獲得2萬多閱讀量的帖子,或許反映了網友們的集體心聲:“GPT-5看上去也和GPT-4o沒什麼區別啊。”
這位發帖的網友還進一步吐槽,GPT-5的用詞毫無必要的誇張、花哨,語言怪癖和GPT-4o一模一樣。
Altman近期已在多個場合高調宣傳了GPT-5的能力,稱“GPT-5在幾乎每個方面都比我們聰明”。網友清一色的質疑,反映出已曝出的GPT-5表現與用戶預期之間的明顯差距。
近日,外媒The Information曝光了GPT-5“難產”背後的諸多細節,揭示了OpenAI在技術突破、團隊管理及與合作方博弈中所面臨的重重挑戰。
事實上,GPT-5的發佈已經嚴重延期。原本這一模型早在數月前便應該發佈,卻因能力提升有限,而被迫降檔為GPT-4.5。研究人員發現,適用於較小模型的微調技術,並不適用於超大規模模型;此外,在將推理模型轉化為適合聊天、API使用的“學生模型”時,其性能出現明顯下降。
據知情人士透露,OpenAI下一代旗艦模型GPT-5在編程和數學任務方面相較現有模型有所提升,GPT-5生成的代碼更注重用戶體驗和美觀性;在支持AI智能體執行復雜任務時也更加高效,所需的人工干預更少。
不過,也有知情人士認為,其進步幅度難以與GPT-3到GPT-4那樣的代際飛躍相提並論。
01.GPT-5研發進展不及預期,推理模型實際應用後“降智”明顯
GPT-5的問題,從2024年底便開始醞釀。
OpenAI彼時正開發一款內部代號為“Orion”的模型,原本計劃將其作為GPT-5發佈。據參與者透露,Orion原本被寄予厚望,目標是大幅超越2024年5月發佈的GPT-4o。
但Orion未能實現預期性能,OpenAI最終於2025年2月將其作為GPT-4.5發佈。除了150美元/百萬輸出tokens的驚人定價,這一模型並未給用戶帶來深刻的印象。今年7月,OpenAI決定將GPT-4.5的API服務下線,原因是成本過高。這一模型,也成為OpenAI史上最短命的模型之一。
部分失敗原因在於預訓練階段的侷限性。在這個階段,模型會處理來自網絡和其它來源的數據,從而學習概念之間的關聯。研究人員發現,高質量網頁數據的供給正在枯竭,而且,他們對小規模模型的調優手段在模型變大後不再奏效。
據參與OpenAI研發的知情人士透露,截至今年6月,OpenAI還沒有開發出一款能被稱之為“GPT-5”的模型。
OpenAI的另一大挑戰,源自於推理模型範式在實際應用中出現的意外情況。
去年秋天,OpenAI推出了第一個推理模型o1,這次發佈使OpenAI在AI領域重新獲得海量關注,也為後續發展能夠處理複雜任務的AI智能體奠定了基礎。
到2024年底,OpenAI又基於GPT-4o打造了下一代推理模型o3,與o1屬於同一語言模型家族。但知情人士稱,o3的“教師模型(teacher model)”在科學和其他專業領域的理解能力,比o1的教師模型有顯著的飛躍。
這些提升一部分來自於OpenAI給o3教師模型配置了更多的GPU服務器,從而提供了更強的算力來理解複雜概念;另一部分則源於讓模型具備搜索網絡和訪問代碼庫的能力。
OpenAI在全球範圍內廣泛宣傳這些推理模型在測試中的強大表現,社交媒體上一片沸騰。但現實很快潑了冷水。
據兩位參與開發的人士透露,當OpenAI研究人員將o3的教師模型轉化為聊天版本(學生模型),以便ChatGPT用戶能與其交互時,其性能大幅下降,與o1相比沒有明顯進步,最初公佈的性能提升幾乎消失了,通過API接口供企業使用的版本也存在同樣問題。
一位人士認為,這是因為這些推理模型理解概念的方式與人類語言有差異。
當被強制用自然語言回答問題時,這種“天才級模型”會被“壓縮”到一個更低的表達水平,失去了原有的推理深度。這種差異也體現在推理模型“思考”過程中的亂碼輸出上。
另一位參與者認為,OpenAI在模型對話能力訓練方面投入不足,也導致溝通效果不佳。
儘管存在性能退化,OpenAI今年發佈的o3推理模型仍然幫助了核聚變和病原體檢測等科學研究者提出新的假設與實驗設計。
不過,大語言模型和聊天型推理模型的發展,未能達到OpenAI高層和研究員的預期。o系列模型也在ChatGPT產品線中引發用戶的困惑,Altman因此告訴員工,公司將回歸GPT命名體系。
02.研發通用驗證器,OpenAI稱有望實現GPT-8
推理模型範式受阻後,OpenAI的研究人員採用了一些業內常見的辦法,來維持模型的性能提升。
OpenAI一直在開發被稱為“通用驗證器”的工具,據知情人士稱,這項技術可自動化驗證模型在強化學習過程中的回答質量。
通用驗證器的核心是讓一個模型來檢查並評分另一個模型的答案,前者會藉助多個來源來查證答案的正確性。
日前,OpenAI資深研究員Alexander Wei在X上發文稱,OpenAI在IMO競賽中取得所謂的“金牌”成績模型,使用的正是“通用型”的強化學習,這或許意味著,其驗證手段可應用於一些沒有標準答案、評判標準主觀的任務領域。
通用驗證器的進展正在幫助OpenAI開發GPT-5,不僅在編程等可驗證性強的任務中有所提升,也在創意寫作等主觀性強的領域展現出進步。
整個行業,包括xAI和谷歌,也都在強化學習上加大投入。負責OpenAI強化學習系統的Tworek公開向外界表態,OpenAI模型背後的強化學習系統實際上就是AGI的核心。
這些新進展也解釋了為何OpenAI高管近期在與部分投資人會面時宣稱,有信心做到“GPT-8”。
儘管GPT-5距離AGI還有明顯差距,但它在編程和推理之外,也具備一些更具吸引力的新特性。據微軟內部測試反饋,GPT-5在不顯著增加計算資源消耗的前提下,生成的代碼和文本質量都有提升。
一位微軟員工稱,這是因為GPT-5相比以往的模型更擅長判斷不同任務所需的算力強度,從而實現更高效的資源分配。
自動化編程已經成為OpenAI重點攻克的方向。部分原因在於競爭對手Anthropic去年在向開發者和工具(如Cursor)提供代碼生成模型方面取得了先機。
OpenAI內部也認為,自動化編程不僅對公司未來業務至關重要,更是推動AI研究工作自動化的關鍵。
03.Meta挖人引發團隊動盪,還有員工拒絕與微軟分享新技術
Altman此前曾公開表態:憑藉現有的技術路徑,OpenAI有望實現具有人類智能水平的AI,也就是通用人工智能(AGI)。
不過,在實現AGI的路上,技術並不是唯一的挑戰。作為當前最受矚目的AI創企,OpenAI時時刻刻面臨著競爭對手的挖角。
最近,Meta挖走了十多位OpenAI研究員,其中包括參與了OpenAI近期核心技術進展的人員。Meta給這些研究員開出了“頂級球星”水平的薪酬方案,部分人員的甚至拿到了十幾億美元的薪酬包。
這波離職和隨之而來的人員重組給OpenAI的高級員工帶來了壓力。上週,OpenAI研究副總裁Jerry Tworek就在公司內部Slack中向研究負責人Mark Chen表達對團隊調整的不滿,稱自己需要請一週假來重新評估,但最終並未休假。
此外,還有部分高級研究人員抵制將其技術發明交給微軟,儘管根據OpenAI與微軟的協議,微軟可以在2030年之前,使用OpenAI的技術。
OpenAI與其最大外部股東微軟之間財務關係緊密,但圍繞合作協議條款一直存在摩擦,雙方均試圖在OpenAI重組營利部門、為未來上市鋪路的過程中爭取更多讓步。
據兩位接觸過談判的人士透露,雙方的談判正在朝積極方向推進。一些要點仍在討論中,但也有內容趨於明朗,例如微軟預計將在OpenAI的營利實體中獲得約33%的股權。
04.結語:OpenAI的優勢還能持續多久?
當GPT-5正式發佈時,它將承載外界極高的期望。上週,Altman在一檔播客節目中談及GPT-5的能力時稱,他曾提出一個連自己都聽不懂的問題,而GPT-5卻能輕鬆作答。
然而,過去一年中,OpenAI在模型性能上的進展放緩,加之宣傳與實際能力之間屢次出現明顯落差,也引發了外界的質疑:OpenAI能否在AI能力上繼續領先谷歌、Anthropic等閉源競爭對手,以及DeepSeek、Qwen、Kimi等頭部開源模型?
本文來自微信公眾號“智東西”,作者:陳駿達,編輯:李水青,36氪經授權發佈。




