阿里巴巴Marco-o1:提升LLM推理能力
本文為機器翻譯
展示原文
阿里巴巴宣佈推出馬可-o1,這是一個大型語言模型(LLM),旨在解決常規和開放式問題解決任務。
馬可-o1來自阿里巴巴的MarcoPolo團隊,代表了AI處理複雜推理挑戰的又一步,特別是在數學、物理、編碼以及缺乏明確標準的領域。
該模型建立在OpenAI的推理進步基礎之上,透過融合多種先進技術,包括思維鏈(CoT)微調、蒙特卡羅樹搜尋(MCTS)和新穎的反思機制,進一步增強了在各個領域的問題解決能力。
開發團隊採用了全面的微調策略,使用了多個數據集,包括經過過濾的Open-O1 CoT資料集、合成的Marco-o1 CoT資料集和專門的Marco指令資料集。總的訓練語料庫包含超過60,000個精心策劃的樣本。
該模型在多語言應用方面表現尤為出色。在測試中,Marco-o1在英語MGSM資料集上的準確率提高了6.17%,在中文資料集上提高了5.60%。該模型在翻譯任務方面表現尤為出色,特別是在處理口語表達和文化細微差異方面。
該模型最創新的特點之一是在MCTS框架內實現了不同的行動粒度。這種方法允許模型以不同的細節級別探索推理路徑,從宏觀步驟到更精細的"微步"(32或64個標記)。團隊還引入了一種反思機制,促使模型自我評估並重新考慮其推理,從而在複雜的問題解決場景中提高準確性。
MCTS整合已被證明特別有效,所有MCTS增強版本的模型都顯示出明顯的改進,相比基礎的Marco-o1-CoT版本。團隊對不同行動粒度的實驗揭示了有趣的模式,但他們指出,確定最佳策略需要進一步研究和更精確的獎勵模型。
開發團隊公開了該模型的當前侷限性,承認儘管Marco-o1展現了強大的推理特性,但仍未達到完全實現的"o1"模型。他們強調,這一版本代表了持續改進的承諾,而不是成品。
展望未來,阿里巴巴團隊宣佈計劃納入獎勵模型,包括結果獎勵建模(ORM)和過程獎勵建模(PRM),以增強Marco-o1的決策能力。他們還在探索強化學習技術,進一步完善模型的問題解決能力。
Marco-o1模型及其相關資料集已透過阿里巴巴的GitHub儲存庫提供給研究界,並附有全面的文件和實施指南。該釋出包括直接模型使用和透過FastAPI部署的安裝說明和示例指令碼。
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享