GPT-5更近了!今天,神秘模型Horizon Alpha火遍全網,編碼首測性能逆天,各種三方基準實測相繼放出。就在發佈前夕,OpenAI核心大腦專訪坦言模型還有瓶頸,但堅信Scaling Law沒有盡頭。
GPT-5的發佈前兆,愈發強烈了。
今早,一款神秘模型Horizon Alpha突然上線OpenRouter,各種榜單和測試席捲了全網。
Horizon Alpha模型的上下文為256K,響應極速,非常擅長創意寫作。
它還具備了「推理」功能,不過,推理token的預算是o4-mini的兩倍。
在編程方面,Horizon Alpha堪稱無敵了。
它可以一句話生成「水果忍者」、「外星人抓奶牛」等各種遊戲,能根據logo圖直出廣告,還能輕而易舉地通過「六邊形物理模擬」測試。
在寫作EQ-Bench基準測試中,Horizon Alpha位列第一,遠超o3、Gemini 2.5 Pro。
更令人驚歎的是,它竟能在30秒內,完成20位數與20位數的乘法運算。
此前被爆料的各種代號模型,比如lobster、zenith、summit等,在多項測試中驚豔了所有人。
種種跡象表明,GPT-5「全家桶」絕對是個地表最強模型。
谷歌收錄GPT-5的OpenAI文檔頁面,目前404
關於Horizon Alpha的更多細節,全部濃縮在網友的實測中了。
神秘Horizon Alpha登場,編程強到逆天
目前,在OpenRouter平臺上,即可開啟對Horizon Alpha版本的測試。
傳送門:https://openrouter.ai/chat?room=orc-1754007231-sX8GtgCUyNkHh6O6In2l
在模型推理時,相較於Claude Sonnet 4(60-80 token/s),Horizon Alpha的吞吐量是最快的,達120個token/s。
吞吐量對比測試,Horizon Alpha是目前最快的。
物理模擬驚豔,秒搭網頁
有網友讓其創建一個功能完整的Windows 95復古桌面,效果令人驚喜且生成速度極快。
另一個讓小球在多邊形中,模擬物理的測試。
不論是六邊形,還是三角形,即便小球可運動的區間縮小,也不會影響效果。
再上點難度,20個球在旋轉的七邊形內彈跳。網友驚訝地表示,「這是自己目前見過最出色的版本之一」。
Horizon Alpha能夠在3分48秒中,創建一個展示一系列簡單有趣的瀏覽器小遊戲的網頁。
給Horizon Alpha同一個提示,「創建一個視覺上有趣的著色器,可以在 twigl 應用中運行,讓它看起來像暴風雨中的海洋」。
沃頓商學院CS教授Ethan Mollick驚歎道,這是迄今為止最好的,而且創建速度非常快。
當網友要求其「創建一個與遛狗的商業網站」,Horizon Alpha愛問一大堆需要提前確認的問題;Sonnet 4則會直接給出解決方案。
左:Horizon Alpha;右:Claude Sonnet 4
最終,從搭建的效果來看,Horizon Alpha輸出的質量高且簡潔。Sonnet 4輸出的更長,內容更全面,也更具創意。
上:Horizon Alpha;下:Claude Sonnet 4
Horizon Alpha還會自主搭建一個銀行網站。
設計一絕,審美感在線
AI大佬Matthew Berman親自測試其SVG創建和UI設計功能,Horizon Alpha瞬間生成了一張專業設計美感的圖。
此前,AI圈大神Simon Willison曾表示,從一張「騎自行車的鵜鶘」就可以看透AI進化史。
如今,用Horizon Alpha生成同款SVG測試,是所有模型當中最強的那個。
其他一些SVG優秀案例。
需要注意的是,雖然各種測試表現不凡,不過根據多方推測,Horizon Alpha可能只是一款小模型。
不管是GPT-5中的哪一款,接下來就坐等OpenAI發佈了。
OpenAI「雙雄」專訪,奧特曼盛讚
就在GPT-5發佈前夕,OpenAI雙雄——首席科學家Jakub Pachocki和研究主管Mark Chen重磅採訪同時放出了。
這對黃金搭檔,可是研發GPT-5的「雙巨頭」。
這篇由MIT Technology Review做的獨家專訪,沒想到深得奧特曼的心。
他對此大加讚賞,「我通常認為這類文章說不到點上,但這篇確實抓住了兩人合作精髓」。
能夠得到奧特曼的高度認可,究竟講了什麼?
OpenAI最佳拍檔
熟悉OpenAI內部人員變動的人都知道,Jakub Pachocki和Mark Chen都是後起之秀。
他們風格迥異,卻形成了完美的互補。
Mark Chen,曾經的華爾街量化交易員,著裝考究,談吐間揮灑自如,可以說與AI毫不搭界。
入職OpenAI後,他迅速成長為DALL·E和GPT-4多模態能力、Codex背後的關鍵推手,擅長將複雜的研究轉化為人人可用的產品。
而Jakub Pachocki,一位低調的理論計算機科學家,接替了離職後的Ilya,痴迷於突破AI邏輯與創造力的極限。
關於內部的角色分工,Pachocki是這麼說的,「Chen負責組建和管理研究團隊,而我負責設定研究路線圖,並確立我們長期的技術願景」。
他們之間合作模式,可以說是「無縫切換」。
不論技術難題多麼複雜,Pachocki和Mark總能非常默契,迅速分工合力攻克。
AGI標尺,自主時間
當前,外界對GPT-5的期待,是一款更強、更快、更全能的巨獸。
採訪中,Mark Chen雖未直面GPT-5問題,卻坦言「我們始終在努力理解深度學習的技術瓶頸,即便是當前最強推理模型,也無法有效將知識串聯起來」。
Pachocki補充道,「我們仍處於推理範式最開端」。
如何讓一款模型進行長期的學習和探索,並提出新穎的想法,才是至關重要。
同時,在他們看來,Scaling Law遠未觸及天花板,通過投入更多計算資源、數據,模型就會變得越來越好。
被問題如何看待AGI時,Mark Chen提出了一個指標——模型能更長時間地自主工作的能力,即「自主時間」。
這個概念簡單卻深刻,它代表著AI在面對複雜問題時,能持續取得進展,而無需人類干預的時間長度。
這個願景,遠遠超出了當前模型的能力,自主時間僅限於幾分鐘到一小時,遇到陌生場景往往會「卡住」。
數學+編程,摘下AI聖盃?
前段時間,OpenAI模型在兩項頂級競賽中取得佳績:
一是,在AtCoder世界巡迴賽總決賽中獲第二名;二是,在IMO 2025大賽中奪下金牌。
在AtCoder比賽中,Psyho的勝利展現了人類獨有的創造性思維,類似AlphaGo當年擊敗李世石的圍棋比賽。
Pachocki表示,「我們在這裡談論的是編程和數學,但它實際上關乎創造力,提出新穎的想法,將不同領域的想法聯繫起來」。
在他們二人看來,數學和編程是「通用智能」的基石。
參考資料:
https://x.com/karminski3/status/1950987896565182587 https://x.com/chetaslua/status/1950784759799718161
https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/
本文來自微信公眾號“新智元”,作者:新智元,36氪經授權發佈。





