GPT-5被曝效果遠不達預期。
OpenAI連續12場發佈會剛剛結束,大家最想看的GPT-5/4.5影子都沒有,於是華爾街日報這邊爆料了。
GPT-5已至少完成2輪訓練,每次長達數月,但是每次訓練後都遇到新問題。
OpenAI正在專門僱人寫代碼、做數學題為GPT-5從頭創建數據,o1合成數據也用,但效率不夠高,想要滿足GPT-5的預訓練需求有難度。
按照市場估算,一次長達6個月的訓練僅計算就需要花費5億美金。GPT-5兩次訓練進展都不順,背後的成本想必也是個天文數字。
Ilya前不久在NeurIPS 2024上宣判的預訓練即將終結,似乎再次得到論證……
這也和The Information此前爆料相呼應,隨著GPT系列進化速度放緩,OpenAI正在嘗試調整戰略,比如o1、o3系列的推出。
目前,OpenAI對最新爆料尚無回應。
但GPT-5究竟是OpenAI藏著不發,還是不能發?答案更確定了一點。
巨量數據算力堆不好GPT-5的預訓練
在華爾街日報的爆料中,OpenAI對於GPT-5的預期很高。
它能夠進行科學探索發現,並完成例行的人類任務,比如預約、訂航班。而且希望它能夠犯更少的錯誤,或者能夠承認錯誤存在,也就是減少幻覺。
這與更早透露出的信息相呼應。OpenAI前CTO Mira曾形象地將GPT-5的智能水平比作博士生。
這意味著GPT-5能夠在某些特定領域取得高水平成績,能像研究生、博士那樣可以深刻理解、推理,並具備專業知識。對比來看,GPT-3是蹣跚學步的孩子,GPT-4是高中生。
今年10月,OpenAI最新籌集到的66億美元融資,估值飆升到1570億美元。投資者的再一次加碼,也被認為是因為相信GPT-5將能完成重大飛躍。
但是GPT-5的發佈一直懸而未決。
奧特曼之前表示,GPT-5不會有明確的發佈時間,等什麼時候準備好了,就什麼時候發。這個時間可能是2025,也可能是2026。
如今回溯來看,GPT-5的推出一直都坎坷不斷。
在2023年,OpenAI被曝光放棄了一個代號為Arrakis的模型。放棄原因是該模型不能實現在保持性能的同時減少對計算資源的需求,沒有達到預期的訓練效率。
這其實反向證明,如果想要訓練規模更大規模的模型,還是需要更龐大的計算資源、更長的時間。
從設定來看,GPT-5顯然會是個“巨無霸”。
GPT-5的開發啟動於GPT-4發佈時。至今已經超過18個月了。
它在內部的代號是獵戶座Orion。按照原本計劃,微軟是想在2024年年中看到GPT-5的。
華爾街日報披露,GPT-5的大規模訓練至少進行了2輪。每次都需要幾個月,每次也都遇到了新問題。
最好的情況下,Orion比OpenAI目前的產品表現都要好。但與所消耗的成本相比,這種提升並不明顯。
據估測,一次為期6個月的訓練僅算力成本就要消耗5億美元。對比來看,GPT-4的訓練成本超1億美元。
另一方面,想要更好的模型,就需要更多的數據。
公共資源的數據消耗殆盡,OpenAI決定僱人從頭構建數據。據爆料,它專門找了一些軟件工程師、數學家來寫代碼、解數學題,供GPT-5學習。
一直以來,AI圈內都認為模型學習代碼可以提升它解決其他問題的能力。
同時OpenAI也和一些物理學家合作,讓GPT-5學習科學家如何理解領域內的問題。
但問題就是,這樣太慢了。
AI合成數據的路子OpenAI也走。據說GPT-5就使用了o1合成的數據。
這種範式可能已經可以被論證。
隔壁Anthropic也被爆料使用AI合成數據訓練模型。他們的做法是把最好用的模型內部自留合成數據,因為模型性能與合成數據質量直接成正比。
以上,大概就是GPT-5最新相關信息。
不過話說回來,最近誰還在乎GPT-5呢(手動狗頭)?
畢竟OpenAI憑藉o1、o3系列開啟了推理Scaling Law。
剛剛發佈的o3在ARC-AGI上刷新成績。最新結果報告顯示,在400項公共任務上,o3的最好成績已經達到91.5%。
在核心機制上,o3也給出新啟發。它通過LLM在token空間內搜索和執行,實現了在測試時內的知識重組。
隨著o3系列發佈,AGI的預言依舊很有吸引力。
o3屠榜ARC-AGI測試,離AGI還有多遠?
簡單介紹一下ARC-AGI數據集,題目帶有色塊的網格陣列(以文本形式表述,用數字代表顏色),大模型需要觀察每道題目中3個輸入-輸出示例,然後根據規律填充新的空白網格。
這幾個示例比較簡單,但實際面臨的問題可能是這樣的:
ARC-AGI測試集一共包含400道公開試題和100個私有問題。
在公開問題中,o3高效率版的準確率為82.8%,消耗了1.11億Token,平均每個任務成本為17美元。
低效率版本(計算量是高效版的172倍),準確率高達91.5%,不過消耗的Token數也達到了驚人的95億。
另外OpenAI還做了一個專門針對ARC-AGI的版本,使用了75%的公開數據集進行了訓練。
這個版本拿到私有測試集上測試,結果地計算量模式取得了76%的準確率,高計算量模式則為88%。
並且,低計算量版本的成本在ARC-AGI-Pub的規則範圍內(<$10k),成為了公共排行榜上的第一名。
88%的高計算量版本則過於昂貴,但仍然表明新任務的性能確實隨著計算量的增加而提高。
在此之前,GPT-3的準確率是零,GPT-4o為5%,o1最好也剛剛超過30%。
ARC挑戰的發起者之一、前谷歌資深工程師、Keras之父François Chollet認為,o3能夠適應以前從未遇到過的任務,可以說在ARC-AGI領域接近人類水平。
當然成本也十分昂貴,即使是低計算量模式,每個任務也需要17-20美元,而發起方僱傭真人解決此類問題的成本,平均到每個問題只有5美元。
但拋開成本問題,Chollet指出,o3對GPT系列的改進證明了架構的重要性,認為無法在GPT-4上通過投入更多計算來獲得這樣的成績。
所以,通過ARC-AGI測試,意味著o3實現AGI了嗎?Chollet認為並不是。
通過測試發現,o3在一些非常簡單的任務上仍然失敗,這表明其與人類智能存在根本差異。
另外,ARC-AGI的下一代ARC-AGI-2也即將推出,早期測試表明其將對o3構成重大挑戰,即使在高計算量模式下,其得分也可能會降低到30%以下(而聰明人仍然能夠得分超過95%)。
但無論是否達到AGI,o3能夠實現的成績都是前所未有的,甚至有人認為,針對ARC這樣的任務而言,人類的優勢其實是在於視覺推理,如果改成像模型看到的那樣用文本形式描述圖形,那人類做的不一定會比AI好。
並且,針對o3“沒能成功”的一個案例,還有人質疑是標準答案錯了。
這道題當中,變化規律是將處於同一行或列的兩個藍色格子連成線,並把穿過的紅色區域整塊塗藍。
這道題的“標準答案”和o3的嘗試,區別就是綠色框中的部分是否被塗成藍色:
在三個示例當中,由紅變藍的部分都是被連線從中間穿過,但在這道題中連線是從這個3×4的紅色區域下方經過,o3因此認為不該把這塊區域塗藍。
那麼,o3又是怎麼實現的呢?
有人認為是通過提示詞,但ARC挑戰負責人Greg Kamradt和OpenAI的研究人員Brandon McKinzie均否認了這一說法,表示給o3的提示詞非常簡單。
另外Chollet推測,o3的核心機制似乎是在Token空間內搜索和執行自然語言程序——在某種評估器模型引導下,搜索可能的描述解決任務所需的步驟的思維鏈空間。
按照Chollet的觀點,o3實現了在測試時的知識重組,總之,o3構建出了一種通向AGI的新的範式。
英偉達AI科學家範麟熙(Jim Fan)認為,o3的本質是“放鬆單點RL超級智能,以覆蓋有用問題空間中的更多點”。
也就是用深度換取廣度,放鬆對於個別任務的強化學習,換得在更多任務上的通用性。
範麟熙舉例說,像AlphaGo、波士頓動力電子地圖集都是超級人工智能,在特定的任務上表現非常出色。
但o3不再是像這樣只能應付單點任務的專家,而是一個在更大的有用任務集都表現優異的專家。
不過範麟熙也表示,o3仍然無法涵蓋人類認知的所有分佈,我們仍然處於莫拉維克悖論之中。
(莫拉維克悖論認為,人類所獨有的高階智慧能力只需要非常少的計算能力(例如推理),但是無意識的技能和直覺卻需要極大的運算能力。)
ARC挑戰發起方的發現——o3在一些非常簡單的任務上失敗,似乎剛好印證了這一觀點。
最後,關於AGI,範麟熙表示,我們已經實現了巨大的里程碑,並且有清晰的路線圖,但還有更多事情要做。
One More Thing
作為12天發佈的一部分,OpenAI在最後一天發佈o3的同時,也發了一篇關於安全問題的論文。
論文引入了一種名為慎重對齊(deliberative alignment)的對齊方式,直接向推理模型傳授人工編寫、可解釋的安全規範,並訓練他們在回答之前對這些規範進行明確的推理。
結果,訓練出的模型不需要人工標記的CoT或答案,就可以高度精確地遵守OpenAI的安全政策。
OpenAI發現,o1在一系列內部和外部安全基準方面顯著優於GPT-4o等其他最先進模型 ,並且在許多具有挑戰性的(安全)數據集上的性能達到飽和。
這一發現,揭示了推理將成為提高模型安全性的一條新途徑。
參考鏈接:
[1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi
[2]https://x.com/mckbrando/status/1870285050555810198
[3]https://x.com/DrJimFan/status/1870542485023584334[4]https://arcprize.org/blog/oai-o3-pub-breakthrough
本文來自微信公眾號“量子位”,作者:關注前沿科技,36氪經授權發佈。