OpenAI今天宣佈了其迄今最強大的人工智慧模型的改進版本 - 一個在回答問題時需要更多時間進行推理的模型,這是在谷歌宣佈了其首個此類模型的一天之後。
OpenAI的新模型稱為o3,取代了此前推出的o1模型。與o1一樣,新模型也會花時間思考問題,以提供更好的需要逐步邏輯推理的答案。(OpenAI選擇跳過"o2"這個名稱,因為它已經是英國一家移動運營商的名稱。)
"我們認為這是AI下一階段的開始,"OpenAI執行長Sam Altman在週五的直播中說。"你可以使用這些模型來完成需要大量推理的越來越複雜的任務。"
OpenAI表示,o3模型在幾個指標上的得分都遠高於其前身,包括測量複雜編碼相關技能和高階數學和科學能力的指標。它在ARC-AGI基準測試中的得分是o1的3倍,該基準旨在測試AI模型解決極其困難的數學和邏輯問題的能力。
谷歌也在進行類似的研究。谷歌研究員Noam Shazeer昨天在X上發帖透露,該公司開發了自己的推理模型Gemini 2.0 Flash Thinking。谷歌執行長Sundar Pichai在他自己的帖子中稱其為"我們迄今為止最周到的模型"。
這兩個對抗的模型顯示,OpenAI和谷歌之間的競爭比以往任何時候都更加激烈。對於OpenAI來說,展示它能夠不斷取得進步至關重要,因為這將有助於吸引更多投資並建立一個盈利的業務。與此同時,谷歌也迫切需要證明自己仍然處於人工智慧研究的前沿。
這些新模型也表明,人工智慧公司正越來越多地尋求超越簡單地擴大AI模型規模,以從中挖掘出更高的智慧。
OpenAI表示,新模型有o3和o3-mini兩個版本。該公司目前還沒有公開這些模型,但表示將邀請外部人員進行測試。OpenAI今天還透露了更多關於對o1進行對齊的技術細節。這涉及讓模型思考請求的性質,以檢查是否可能違反其防護措施。
大型語言模型可以很好地回答許多問題,但當被要求解決需要基本數學或邏輯的難題時,它們通常會失敗。OpenAI的o1透過對逐步問題解決的訓練,使AI模型能夠更好地處理這類問題。
能夠推理問題的模型在公司尋求部署所謂的AI代理以可靠地解決複雜問題的過程中也將很重要。o3模型在SWE-Bench測試中的得分比o1高20%,該測試衡量模型的代理能力。
"這真的標誌著我們正在不斷攀登效用的前沿,"OpenAI研究高階副總裁Mark Chen在今天的直播中說。
"這個模型在程式設計方面非常出色,"Atlman補充道。
儘管科技巨頭在年底還沒有取得真正的突破性時刻,但人工智慧的釋出速度一直令人眩暈。
本月初,谷歌宣佈了其旗艦模型Gemini 2.0的新版本,並展示了它作為網頁瀏覽助手和透過智慧手機或智慧眼鏡觀察世界的助手的功能。
OpenAI在聖誕節前夕也做出了多項公告,包括其影片生成模型的新版本、一個基於ChatGPT的免費搜尋引擎,以及一種透過撥打1-800-ChatGPT訪問ChatGPT的方式。
更新於2024年12月20日下午1:16:本文已更新,增加了來自OpenAI的更多評論和細節。