阿里巴巴Marco-o1:提升LLM推理能力
本文为机器翻译
展示原文
阿里巴巴宣布推出马可-o1,这是一个大型语言模型(LLM),旨在解决常规和开放式问题解决任务。
马可-o1来自阿里巴巴的MarcoPolo团队,代表了AI处理复杂推理挑战的又一步,特别是在数学、物理、编码以及缺乏明确标准的领域。
该模型建立在OpenAI的推理进步基础之上,通过融合多种先进技术,包括思维链(CoT)微调、蒙特卡罗树搜索(MCTS)和新颖的反思机制,进一步增强了在各个领域的问题解决能力。
开发团队采用了全面的微调策略,使用了多个数据集,包括经过过滤的Open-O1 CoT数据集、合成的Marco-o1 CoT数据集和专门的Marco指令数据集。总的训练语料库包含超过60,000个精心策划的样本。
该模型在多语言应用方面表现尤为出色。在测试中,Marco-o1在英语MGSM数据集上的准确率提高了6.17%,在中文数据集上提高了5.60%。该模型在翻译任务方面表现尤为出色,特别是在处理口语表达和文化细微差异方面。
该模型最创新的特点之一是在MCTS框架内实现了不同的行动粒度。这种方法允许模型以不同的细节级别探索推理路径,从宏观步骤到更精细的"微步"(32或64个标记)。团队还引入了一种反思机制,促使模型自我评估并重新考虑其推理,从而在复杂的问题解决场景中提高准确性。
MCTS集成已被证明特别有效,所有MCTS增强版本的模型都显示出明显的改进,相比基础的Marco-o1-CoT版本。团队对不同行动粒度的实验揭示了有趣的模式,但他们指出,确定最佳策略需要进一步研究和更精确的奖励模型。
开发团队公开了该模型的当前局限性,承认尽管Marco-o1展现了强大的推理特性,但仍未达到完全实现的"o1"模型。他们强调,这一版本代表了持续改进的承诺,而不是成品。
展望未来,阿里巴巴团队宣布计划纳入奖励模型,包括结果奖励建模(ORM)和过程奖励建模(PRM),以增强Marco-o1的决策能力。他们还在探索强化学习技术,进一步完善模型的问题解决能力。
Marco-o1模型及其相关数据集已通过阿里巴巴的GitHub存储库提供给研究界,并附有全面的文档和实施指南。该发布包括直接模型使用和通过FastAPI部署的安装说明和示例脚本。
来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享