OpenAI 宣佈推出一種通過問題進行“推理”的模型,稱之為“新範式”

avatar
WIRED
09-13
本文為機器翻譯
展示原文

OpenAI去年推出了 GPT-4 ,將其模型規模擴大到令人眼花繚亂的程度,這是人工智能領域的最新重大突破。該公司今天宣佈了一項新進展,標誌著方法的轉變——一種能夠通過邏輯“推理”解決許多難題的模型,並且比現有的人工智能聰明得多,而無需進行大規模擴展。

這個被稱為 OpenAI-o1 的新模型可以解決現有 AI 模型無法解決的問題,包括 OpenAI 現有最強大的模型GPT-4o 。它不是像大型語言模型通常那樣一步到位地得出答案,而是通過推理解決問題,像人一樣有效地大聲思考,然後得出正確的結果。

OpenAI 首席技術官Mira Murati向 WIRED 表示:“我們認為這就是這些模型中的新範式。它在處理非常複雜的推理任務方面表現得更好。”

OpenAI 內部的新模型代號為 Strawberry,該公司表示,它並不是 GPT-4o 的後繼者,而是對它的補充。

Murati 表示,OpenAI 目前正在構建其下一個主模型 GPT-5,該模型將比其前身大得多。儘管該公司仍然相信規模將有助於從人工智能中挖掘出新的能力,但 GPT-5 很可能還會包括今天推出的推理技術。“有兩種範式,”Murati 說。“擴展範式和這種新範式。我們希望將它們結合在一起。”

法學碩士通常從輸入大量訓練數據的大型神經網絡中尋找答案。他們可以展現出非凡的語言和邏輯能力,但傳統上卻很難解決非常簡單的問題,例如涉及推理的基本數學問題。

Murati 表示,OpenAI-o1 使用強化學習,即當模型答對時給予正反饋,答錯時給予負反饋,以改進其推理過程。“該模型會磨練其思維,並微調其用於得出答案的策略,”她說。強化學習使計算機能夠以超人的技巧玩遊戲,並執行設計計算機芯片等有用的任務。該技術也是將 LLM 變成有用且行為良好的聊天機器人的關鍵因素。

OpenAI 研究副總裁 Mark Chen 向《連線》雜誌展示了新模型,並用它解決了其前身模型 GPT-4o 無法解決的幾個問題。其中包括一道高級化學題和以下一道令人費解的數學題:“如果公主的年齡是王子的兩倍,而公主的年齡是王子現在年齡的一半,那麼公主的年齡與王子的年齡相同。王子和公主的年齡是多少?”(正確答案是王子 30 歲,公主 40 歲)。

陳說:“新模式是學會獨立思考,而不是像傳統法學碩士那樣試圖模仿人類的思維方式。”

OpenAI 表示,其新模型在許多問題集上的表現明顯更好,包括專注於編碼、數學、物理、生物和化學的問題。據該公司稱,在美國數學邀請賽 (AIME)(一項針對數學學生的測試)中,GPT-4o 平均解決了 12% 的問題,而 o1 的正確率為 83%。

新模型比 GPT-4o 慢,OpenAI 表示它的表現並不總是更好——部分原因是,與 GPT-4o 不同,它無法搜索網絡並且不是多模式的,這意味著它無法解析圖像或音頻。

一段時間以來,提高法學碩士的推理能力一直是研究界的熱門話題。事實上,競爭對手也在進行類似的研究。7 月,谷歌宣佈了AlphaProof這是一個將語言模型與強化學習相結合以解決困難數學問題的項目

AlphaProof 能夠通過查看正確答案來學習如何推理數學問題。擴展這種學習方式的一個關鍵挑戰是,模型可能遇到的所有問題都沒有正確答案。陳說,OpenAI 已經成功建立了一個更通用的推理系統。“我確實認為我們在這方面取得了一些突破;我認為這是我們的優勢之一,”陳說。“它實際上在所有領域的推理方面都相當出色。”

斯坦福大學教授諾亞·古德曼(Noah Goodman) 曾發表過關於提高法學碩士推理能力的論文,他表示,更廣泛訓練的關鍵可能在於使用“精心提示的語言模型和手工製作的數據”進行訓練。他補充說,能夠始終以結果速度換取更高的準確性將是一個“不錯的進步”。

麻省理工學院助理教授Yoon Kim表示,法學碩士如何解決問題目前仍有些神秘,即使它們進行逐步推理,也可能與人類智能存在關鍵差異。隨著該技術得到更廣泛的應用,這一點可能至關重要。“這些系統可能會做出影響很多人的決策,”他說。“更大的問題是,我們是否需要對計算模型如何做出決策充滿信心?”

OpenAI 今天推出的技術也可能有助於確保 AI 模型表現良好。Murati 表示,新模型已經證明,通過推理其行為的結果,它可以更好地避免產生不愉快或潛在有害的輸出。“如果你想教孩子,一旦他們能夠推理出為什麼他們要做某件事,他們就會更好地學會遵守某些規範、行為和價值觀,”她說。

OpenAI 的陳表示,該公司開發的新推理方法還表明,推進人工智能並不需要耗費大量的計算能力。“這種模式令人興奮的一點是,我們相信它將使我們能夠以更低的成本交付智能,”他說,“我認為這確實是我們公司的核心使命。”

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
4
收藏
1
評論