GPT-5真身曝光，首測編程驚豔全網，一句話秒生遊戲，OpenAI雙雄備戰AGI

08-01

GPT-5更近了！今天，神秘模型Horizon Alpha火遍全網，編碼首測性能逆天，各種三方基準實測相繼放出。就在發佈前夕，OpenAI核心大腦專訪坦言模型還有瓶頸，但堅信Scaling Law沒有盡頭。

GPT-5的發佈前兆，愈發強烈了。

今早，一款神秘模型Horizon Alpha突然上線OpenRouter，各種榜單和測試席捲了全網。

Horizon Alpha模型的上下文為256K，響應極速，非常擅長創意寫作。

它還具備了「推理」功能，不過，推理token的預算是o4-mini的兩倍。

在編程方面，Horizon Alpha堪稱無敵了。

它可以一句話生成「水果忍者」、「外星人抓奶牛」等各種遊戲，能根據logo圖直出廣告，還能輕而易舉地通過「六邊形物理模擬」測試。

在寫作EQ-Bench基準測試中，Horizon Alpha位列第一，遠超o3、Gemini 2.5 Pro。

更令人驚歎的是，它竟能在30秒內，完成20位數與20位數的乘法運算。

此前被爆料的各種代號模型，比如lobster、zenith、summit等，在多項測試中驚豔了所有人。

種種跡象表明，GPT-5「全家桶」絕對是個地表最強模型。

谷歌收錄GPT-5的OpenAI文檔頁面，目前404

關於Horizon Alpha的更多細節，全部濃縮在網友的實測中了。

神秘Horizon Alpha登場，編程強到逆天

目前，在OpenRouter平臺上，即可開啟對Horizon Alpha版本的測試。

傳送門：https://openrouter.ai/chat?room=orc-1754007231-sX8GtgCUyNkHh6O6In2l

在模型推理時，相較於Claude Sonnet 4（60-80 token/s），Horizon Alpha的吞吐量是最快的，達120個token/s。

吞吐量對比測試，Horizon Alpha是目前最快的。

物理模擬驚豔，秒搭網頁

有網友讓其創建一個功能完整的Windows 95復古桌面，效果令人驚喜且生成速度極快。

另一個讓小球在多邊形中，模擬物理的測試。

不論是六邊形，還是三角形，即便小球可運動的區間縮小，也不會影響效果。

再上點難度，20個球在旋轉的七邊形內彈跳。網友驚訝地表示，「這是自己目前見過最出色的版本之一」。

Horizon Alpha能夠在3分48秒中，創建一個展示一系列簡單有趣的瀏覽器小遊戲的網頁。

給Horizon Alpha同一個提示，「創建一個視覺上有趣的著色器，可以在 twigl 應用中運行，讓它看起來像暴風雨中的海洋」。

沃頓商學院CS教授Ethan Mollick驚歎道，這是迄今為止最好的，而且創建速度非常快。

當網友要求其「創建一個與遛狗的商業網站」，Horizon Alpha愛問一大堆需要提前確認的問題；Sonnet 4則會直接給出解決方案。

左：Horizon Alpha；右：Claude Sonnet 4

最終，從搭建的效果來看，Horizon Alpha輸出的質量高且簡潔。Sonnet 4輸出的更長，內容更全面，也更具創意。

上：Horizon Alpha；下：Claude Sonnet 4

Horizon Alpha還會自主搭建一個銀行網站。

設計一絕，審美感在線

AI大佬Matthew Berman親自測試其SVG創建和UI設計功能，Horizon Alpha瞬間生成了一張專業設計美感的圖。

此前，AI圈大神Simon Willison曾表示，從一張「騎自行車的鵜鶘」就可以看透AI進化史。

如今，用Horizon Alpha生成同款SVG測試，是所有模型當中最強的那個。

其他一些SVG優秀案例。

需要注意的是，雖然各種測試表現不凡，不過根據多方推測，Horizon Alpha可能只是一款小模型。

不管是GPT-5中的哪一款，接下來就坐等OpenAI發佈了。

OpenAI「雙雄」專訪，奧特曼盛讚

就在GPT-5發佈前夕，OpenAI雙雄——首席科學家Jakub Pachocki和研究主管Mark Chen重磅採訪同時放出了。

這對黃金搭檔，可是研發GPT-5的「雙巨頭」。

這篇由MIT Technology Review做的獨家專訪，沒想到深得奧特曼的心。

他對此大加讚賞，「我通常認為這類文章說不到點上，但這篇確實抓住了兩人合作精髓」。

能夠得到奧特曼的高度認可，究竟講了什麼？

OpenAI最佳拍檔

熟悉OpenAI內部人員變動的人都知道，Jakub Pachocki和Mark Chen都是後起之秀。

他們風格迥異，卻形成了完美的互補。

Mark Chen，曾經的華爾街量化交易員，著裝考究，談吐間揮灑自如，可以說與AI毫不搭界。

入職OpenAI後，他迅速成長為DALL·E和GPT-4多模態能力、Codex背後的關鍵推手，擅長將複雜的研究轉化為人人可用的產品。

而Jakub Pachocki，一位低調的理論計算機科學家，接替了離職後的Ilya，痴迷於突破AI邏輯與創造力的極限。

關於內部的角色分工，Pachocki是這麼說的，「Chen負責組建和管理研究團隊，而我負責設定研究路線圖，並確立我們長期的技術願景」。

他們之間合作模式，可以說是「無縫切換」。

不論技術難題多麼複雜，Pachocki和Mark總能非常默契，迅速分工合力攻克。

AGI標尺，自主時間

當前，外界對GPT-5的期待，是一款更強、更快、更全能的巨獸。

採訪中，Mark Chen雖未直面GPT-5問題，卻坦言「我們始終在努力理解深度學習的技術瓶頸，即便是當前最強推理模型，也無法有效將知識串聯起來」。

Pachocki補充道，「我們仍處於推理範式最開端」。

如何讓一款模型進行長期的學習和探索，並提出新穎的想法，才是至關重要。

同時，在他們看來，Scaling Law遠未觸及天花板，通過投入更多計算資源、數據，模型就會變得越來越好。

被問題如何看待AGI時，Mark Chen提出了一個指標——模型能更長時間地自主工作的能力，即「自主時間」。

這個概念簡單卻深刻，它代表著AI在面對複雜問題時，能持續取得進展，而無需人類干預的時間長度。

這個願景，遠遠超出了當前模型的能力，自主時間僅限於幾分鐘到一小時，遇到陌生場景往往會「卡住」。

數學+編程，摘下AI聖盃？

前段時間，OpenAI模型在兩項頂級競賽中取得佳績：

一是，在AtCoder世界巡迴賽總決賽中獲第二名；二是，在IMO 2025大賽中奪下金牌。

在AtCoder比賽中，Psyho的勝利展現了人類獨有的創造性思維，類似AlphaGo當年擊敗李世石的圍棋比賽。

Pachocki表示，「我們在這裡談論的是編程和數學，但它實際上關乎創造力，提出新穎的想法，將不同領域的想法聯繫起來」。

在他們二人看來，數學和編程是「通用智能」的基石。

參考資料：

https://x.com/karminski3/status/1950987896565182587 https://x.com/chetaslua/status/1950784759799718161

https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/

本文來自微信公眾號“新智元”，作者：新智元，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

收藏

評論

分享

相關推薦

今夜，美國非農或現“百萬級”下修

貝萊德宣佈購買 Uniswap 平台幣 UNI！$UNI 跳漲 23%

蚊子肉，滾出 10 萬美元利潤