劃重點
OpenAI已對GPT-5進行了兩輪大規模訓練,目前開發進度已落後於原計劃半年。
GPT-5每輪訓練需要耗費數週乃至數月時間,六個月的計算成本可能達5億美元。
OpenAI正藉助o1模型來生成合成數據,以進一步豐富用於訓練GPT-5的數據集。
OpenAI的研究人員發現,通過“推理”,讓大語言模型學會“思考”會讓其變得更聰明。
12月22日消息,由於計算成本居高不下,加之高質量訓練數據的稀缺,OpenAI在推進其下一代旗艦模型GPT-5的開發進程上正落後於原定計劃。截至目前,OpenAI已至少對GPT-5實施了兩輪大規模訓練,旨在藉助海量數據資源來優化模型效能。然而,首次訓練的實際運行速度未能達到預期標準,致使更大規模的訓練嘗試不僅耗時冗長,而且成本高昂。儘管GPT-5相較於其前代在性能層面有所提升,但這種進步幅度尚不足以充分驗證維持該模型運作所需鉅額成本是否值得。
在數據採集方面,OpenAI採取了多元化策略,不僅依賴公開的數據資源和授權協議,還積極招募人員,通過編寫代碼或解決數學問題等手段創新性地生成新的數據資源。此外,該公司還藉助另一個名為o1的模型來生成合成數據,以進一步豐富其數據集。鑑於GPT-5可能難以複製其前身所實現的顯著性能突破,OpenAI目前正積極尋求並探索新的戰略方向。
01 開發計劃已落後半年 訓練6個月花費5億美元
OpenAI新人工智能項目的正式官方名稱為GPT-5,內部代號為“獵戶座”(Orion),該公司已經對其進行了長達18個月的開發,旨在實現ChatGPT技術的重大飛躍。據知情人士透露,OpenAI的合作伙伴及主要投資者微軟,原本期望能在2024年中期就能看到新模型面世。
OpenAI已經針對獵戶座進行了至少兩次大規模的訓練,每次都需要耗費數月時間對海量數據進行處理,以期提升獵戶座的智能水平。然而,據項目內部人士透露,每次訓練都遭遇了新的難題,導致軟件的智能水平始終未能達到研究人員的預期。
研究人員表示,即便在最優情況下,獵戶座的性能相較於OpenAI當前的模型有所提升,但其進步幅度尚不足以充分證明其高昂運行成本是否值得。根據公共和私人對培訓各個方面的估計,僅六個月的訓練週期,計算成本就可能高達約5億美元。
回溯兩年前,OpenAI及其首席執行官山姆·奧特曼(Sam Altman)推出了ChatGPT,在硅谷引發了巨大轟動,預示著人工智能領域將持續展現出驚人的進步,並深刻影響我們生活的方方面面。分析人士預測,在未來幾年內,科技巨頭們可能會在人工智能項目上投入高達1萬億美元的資金。
圖注:OpenAI聯合創始人兼首席執行官奧特曼預測,GPT-5將代表著“重大飛躍”
這些厚望主要聚焦於OpenAI身上,這家初創公司正站在人工智能浪潮的最前沿。今年10月,投資者對OpenAI的估值高達1570億美元,這一估值在很大程度上基於奧特曼的預測之上,即GPT-5將在各個學科和任務上實現“重大飛躍”。
GPT-5旨在推動科學新發現,並勝任日常的人類任務,如預約或航班預定等。研究人員期望它能比當前的人工智能系統犯更少的錯誤,或者至少能夠承認自己的答案存疑——這對於目前的模型而言是一大挑戰,因為它們有時會產生所謂的“幻覺”。
人工智能聊天機器人運行在被稱為大語言模型(LLM)的底層技術上。消費者、企業和政府機構已經在眾多事務上依賴它們,從編寫計算機代碼到完善營銷文案,再到策劃聚會等。OpenAI當前的項目是GPT-4,這是該公司自2015年成立以來開發的第四個大語言模型。
據OpenAI的一位前高管透露,雖然GPT-4的表現相當於一個聰明的高中生,但最終的GPT-5在某些任務上的能力實際上可以達到博士水平。今年早些時候,奧特曼在斯坦福大學的一次演講中告訴學生,OpenAI可以“高度科學地確定”,GPT-5將比當前的模型聰明得多。
然而,現在還沒有固定的標準來判斷一個模型何時變得足夠智能,可以被命名為GPT-5。OpenAI可以在數學、編碼等領域對大語言模型進行測試。但一個模型是否足夠聰明,可以被稱為GPT-5,這主要取決於該公司高管的直覺,或者如許多技術專家所言,是一種“感覺”。
截至目前,情況並不樂觀。OpenAI和微軟對此拒絕置評。今年11月,奧特曼表示,這家初創公司在2024年不會推出任何名為GPT-5的產品。
02 訓練新模型費用或翻10倍 耗時長達數月
自GPT-4於2023年3月面世以來,OpenAI便投身於GPT-5的研發之中。長期投身於人工智能研究的專家們指出,開發大語言模型這類系統既是科學探索,也是藝術創造。
在訓練階段,模型會經歷持續的測試。在這一漫長的過程中,模型會接收數萬億個被稱為“Token”的單詞片段輸入。在數據中心進行的一次大規模訓練,可能需要耗費數月時間,而這裡配備了成千上萬顆價格昂貴且供不應求的計算機芯片,這些芯片往往源自英偉達公司。
在一次訓練中,研究人員會在電腦前連續工作數週乃至數月,試圖將世界上的大部分知識輸入到一個人工智能系統中,而該系統則依賴於位於偏遠數據中心的一些最為昂貴的硬件設備。
圖注:OpenAI GPT模型迭代參數變化,其中GPT-1參數為1.17億,GPT-2為15億, GPT-3為1750億,GPT-4則增至1.76萬億
奧特曼曾公開表示,GPT-4的訓練成本超過了1億美元,而預計未來的人工智能模型訓練費用將攀升至超過10億美元。一次失敗的訓練,就如同一枚太空火箭在升空後不久便在空中爆炸,損失巨大且令人痛心。
為了減少這種失敗的風險,研究人員採取了更為謹慎的策略,即在更大規模的實驗之前,先在較小的範圍內進行預實驗或試運行。
然而,從項目啟動之初,GPT-5就面臨著諸多挑戰。
在2023年中期,OpenAI啟動了一次訓練,這同時也是對獵戶座新設計的首次實戰測試。然而,訓練過程異常緩慢,預示著更大規模的訓練可能會耗時極長,進而導致成本飆升到令人咋舌的地步。這個被稱為Arrakis的項目結果並不理想,它表明創建GPT-5的過程並不會如預期般一帆風順。
面對這一困境,OpenAI的研究人員決定對獵戶座進行一些技術上的調整以增強其性能。同時,他們也意識到,為了提升模型的準確性和泛化能力,他們需要收集更多樣化、更高質量的數據。在他們看來,僅僅依賴公共互聯網上的數據是遠遠不夠的。
圖注:英偉達首席執行官黃仁勳,該公司生產大部分人工智能訓練芯片
通常而言,人工智能模型所處理的數據量越大,其能力便會越強。對於大語言模型而言,這些數據主要源自書籍、學術出版物以及其他公開教育資源。這些素材有助於模型更精準地表達自我,並勝任各類任務。
在構建先前的模型時,OpenAI主要採用了從互聯網上抓取的數據,包括新聞文章、社交媒體帖子和科學論文等。然而,為了進一步提升獵戶座的智能水平,OpenAI需要使其規模更加龐大,這意味著需要更多的數據作為支撐,但目前的數據量還遠遠不足。
DatologyAI的首席執行官阿里·莫科斯(Ari Morcos)指出:“這個過程變得非常昂貴,而且很難找到同等質量的數據。”DatologyAI是一家致力於開發數據選擇優化工具的初創企業。莫科斯正在嘗試利用更少但質量更高的數據來構建模型,他認為這種方法將使當前的人工智能系統相較於OpenAI等所有頂級人工智能公司所採用的策略更具優勢。
OpenAI的解決方案則是從零開始創造數據。他們正在聘請人員編寫新的軟件代碼或解決數學問題,以供獵戶座學習。這些工作人員,其中不乏軟件工程師和數學家,也會與獵戶座分享他們的工作思路和解題方法。眾多研究人員認為,作為軟件語言的代碼有助於大語言模型解決那些它們尚未遇到過的問題。
圖注:在OpenAI的辦公區,員工們常常連續數週或數月沉浸在人工智能的培訓工作中
鼓勵人們闡述他們的思考過程,可以顯著提升新創建數據的價值。大語言模型需要不斷吸收豐富的語言素材,這也是它們未來解決類似問題時的重要參考和依據。
Turing是一家專注於人工智能基礎設施的公司,與OpenAI、Meta等科技巨頭保持著緊密的合作關係。該公司的首席執行官兼聯合創始人喬納森·西達爾斯(Jonathan Siddharth)表示:“我們正致力於將人類智能從大腦遷移到機器大腦中。”
據Turing的高管介紹,在人工智能的培訓過程中,軟件工程師可能會被要求編寫一個程序,以高效解決某個複雜的邏輯難題;而數學家則可能需要計算出由一百萬個籃球堆疊而成的金字塔所能達到的最大高度。這些問題的答案——以及更為關鍵的,獲取這些答案的方法——隨後都會被整合進人工智能的培訓材料中。
此外,OpenAI還與理論物理學等領域的專家展開合作,向他們請教如何解決各自領域中最為棘手的問題。這些合作同樣有助於獵戶座變得更聰明。
然而,這個進程異常緩慢。GPT-4在大約13萬億個Token的基礎上進行了訓練。如果1000個人每天各自撰寫5000個單詞,那麼需要耗費數月的時間才能累積到10億個Token。
為了加速訓練進程,OpenAI開始著手開發所謂的“合成數據”,即利用人工智能手段生成的數據,以輔助獵戶座的訓練。但研究表明,這種由人工智能為人工智能訓練創造數據的反饋循環,往往會引發故障或產生荒謬的答案。
據知情人士透露,OpenAI的科學家們認為,他們可以通過利用該公司另一款名為o1的人工智能模型所生成的數據來規避這些問題。然而,OpenAI本就艱鉅的任務,因內部動盪以及競爭對手不斷挖角其頂尖研究人員而變得更加複雜。這些競爭對手有時甚至向OpenAI的研究人員提供高達數百萬美元的年薪。
去年,奧特曼曾一度被OpenAI董事會解僱,這一事件讓許多研究人員對OpenAI的未來產生了懷疑。但幸運的是,奧特曼很快便恢復了首席執行官的職位,並開始著手改革OpenAI的治理結構。
今年,OpenAI已經失去了20多名關鍵高管、研究人員和長期員工,其中包括聯合創始人兼首席科學家伊利亞·蘇茨克維(Ilya Sutskever)和首席技術官米拉·穆拉蒂(Mira Murati)。週四,備受尊敬的研究員、OpenAI多篇科學論文的主要作者亞歷克·雷德福(Alec Radford)也宣佈離職,他在OpenAI工作了約8年時間。
03 GPT-5面臨內外部競爭 第二次大規模訓練再遇挫
到2024年初,OpenAI的高管們開始感受到前所未有的壓力。GPT-4已經發布一年,而競爭對手正迅速逼近。Anthropic推出的新模型在業內獲得了高度評價,甚至被認為超越了GPT-4。幾個月之後,谷歌推出了今年備受矚目的新人工智能應用——NotebookLM。
在獵戶座的開發遭遇瓶頸之際,OpenAI不得不將精力分散到其他項目和應用程序上,如推出GPT-4的精簡版以及人工智能生成視頻工具Sora。據知情人士透露,這導致開發新產品的團隊與獵戶座的研究人員之間為了爭奪有限的計算資源而展開競爭。
圖注:谷歌是OpenAI在人工智能領域爭奪主導地位的強勁對手之一
同時,不同人工智能實驗室之間的競爭也變得異常激烈,以至於大型科技公司發表的關於最新發現或突破的論文數量遠少於科學領域的平均水平。兩年前,隨著大量資金湧入市場,科技公司開始將這些研究成果視為需要嚴格保護的商業秘密。一些研究人員對此高度重視,他們絕不會在飛機、咖啡館或任何可能有人窺視他們工作的地方辦公。
這種遮遮掩掩的態度令許多長期從事人工智能研究的人員感到失望,其中包括Meta的首席人工智能科學家楊立昆(Yann LeCun)。楊立昆認為,OpenAI和Anthropic的工作已經不再是純粹的研究,而是“先進的產品開發”。他在最近的一次人工智能會議上表示:“如果你在商業化的時間壓力下進行這項工作,那就不能稱之為研究。如果它是秘密進行的,那同樣不能稱之為研究。”
2024年初,OpenAI準備再次嘗試訓練獵戶座,併為其配備了更加優質的數據。研究人員在今年的前幾個月進行了多次小規模的訓練,以建立信心。到了5月,OpenAI的研究人員決定,他們已準備好為獵戶座進行另一次大規模的訓練,預計將持續到11月。
然而訓練開始後不久,OpenAI的研究人員便遇到了一個棘手的問題:他們發現數據並沒有預期中那麼多樣化,這可能會極大地限制“獵戶座”的學習能力。在小規模訓練階段,這個問題並不明顯,但隨著大規模訓練的推進,它逐漸浮出水面。由於已經投入了大量的時間和金錢,OpenAI無法輕易重新開始。
為了應對這一挑戰,研究人員在訓練過程中緊急尋找更加廣泛的數據源,以期為模型提供更豐富的信息。然而,目前尚無法確定這一策略是否能取得顯著成效。在OpenAI內部,一些人認為獵戶座所遇到的問題,表明曾經推動OpenAI早期成功的“多多益善”(more-is-more)戰略正在逐漸失效。
事實上,OpenAI並非唯一一家擔憂技術進步遭遇瓶頸的公司。在整個人工智能行業,關於人工智能的發展是否已經開始趨於平穩的爭論正愈演愈烈。
圖注:伊利亞·蘇茨克維於今年辭去了OpenAI首席科學家的職務
蘇茨克維最近與人聯合創立了一家名為Safe Superintelligence(簡稱SSI)的新人工智能公司。在最近的一次人工智能會議上,他宣佈數據最大化的時代已經結束。“數據不會無限制地增長,因為我們只有一個互聯網,”他向在場的研究人員、政策專家和科學家坦言,“你甚至可以說,數據是人工智能的化石燃料。而現在,這種燃料已經開始枯竭。”
04 推理模型帶來新希望 蘋果研究員提出質疑
在獵戶座項目的推進過程中,OpenAI的研究人員探索出了一種讓大語言模型變得更加聰明的新途徑:推理。他們發現,通過給予大語言模型更長的時間去“思考”,這些模型能夠解決一些它們並未接受過專門培訓的問題。
在OpenAI的內部,o1模型發揮著關鍵作用。它為每個問題提供多個可能的答案,並對這些答案進行深入分析,從而找出最優解。o1不僅能夠執行如撰寫商業計劃或設計填字遊戲等複雜任務,同時還能解釋其推理過程,這有助於模型從每個答案中汲取知識。
然而,蘋果公司的研究人員最近發表的一篇論文對推理模型提出了質疑。他們認為,包括o1在內的推理模型,在很大程度上只是在模仿它們在訓練過程中接觸到的數據,而非真正具備解決新問題的能力。蘋果指出,當問題被稍作修改,例如加入一些不相關的細節時,這些模型的表現就會“災難性地下降”。例如,在調整涉及獼猴桃的數學題時,模型可能無法注意到某些水果比其他水果小這一細節。
儘管如此,OpenAI在今年9月還是發佈了o1推理模型的預覽版,並在本月早些時候推出了o1的完整版本。 但值得一提的是,所有這些額外的計算和處理能力都帶來了更高的成本。OpenAI現在需要為單個查詢生成多個答案,而不再僅僅是一個,這無疑增加了其運營的經濟負擔。
在最近的一次TED演講中,OpenAI的資深研究科學家諾姆·布朗(Noam Brown)闡述了推理的顯著優勢。他提到:“我們發現,讓機器人在玩撲克牌時思考20秒,所獲得的性能提升,與將模型規模擴大10萬倍、訓練時間延長10萬倍所帶來的效果相當。”
一個更加先進且高效的推理模型,完全有可能成為獵戶座項目的核心基礎。OpenAI的研究人員正在探索這一方向,並期望能將這種推理方法與傳統的獲取更多數據的方法相結合。這些新增的數據可能部分來源於OpenAI的其他人工智能模型。然後,OpenAI還計劃利用人類生成的數據來優化和完善這些結果。
在美國當地時間12月20日的發佈會上,奧特曼宣佈了一項全新的推理模型計劃。據他介紹,這個新模型將比OpenAI之前發佈的任何模型都要更加智能。然而,他並未透露關於何時會推出這個新模型,以及它是否會被命名為GPT-5。(騰訊科技特約編譯金鹿)
本文來自微信公眾號“騰訊科技”,作者:騰訊科技,36氪經授權發佈。