Alibaba Marco-o1: LLM 추론 기능 향상

11-29

이 기사는 기계로 번역되었습니다

원문 표시

알리바바가 기존 및 개방형 문제 해결 과제를 해결하기 위해 설계된 대규모 언어 모델(LLM) Marco-o1을 발표했습니다.

알리바바의 MarcoPolo 팀이 개발한 Marco-o1은 수학, 물리학, 코딩 및 명확한 기준이 부족한 분야에서 복잡한 추론 과제를 처리할 수 있는 AI의 능력을 한 단계 더 발전시켰습니다.

OpenAI의 o1 모델의 추론 발전을 기반으로 하는 Marco-o1은 Chain-of-Thought(CoT) 미세 조정, 몬테카를로 트리 탐색(MCTS) 및 새로운 반영 메커니즘을 포함한 여러 가지 고급 기술을 통해 자신을 차별화했습니다. 이러한 구성 요소는 협력하여 다양한 분야에서 모델의 문제 해결 능력을 향상시킵니다.

개발팀은 Open-O1 CoT 데이터셋의 필터링된 버전, 합성 Marco-o1 CoT 데이터셋 및 전문화된 Marco 지침 데이터셋을 포함한 여러 데이터셋을 사용하여 포괄적인 미세 조정 전략을 구현했습니다. 총 교육 코퍼스는 60,000개 이상의 세심하게 큐레이팅된 샘플로 구성됩니다.

이 모델은 다국어 애플리케이션에서 특히 인상적인 결과를 보여주었습니다. 테스트에서 Marco-o1은 영어 MGSM 데이터셋에서 6.17%, 중국어 데이터셋에서 5.60%의 정확도 향상을 달성했습니다. 특히 일상적인 표현과 문화적 미묘함을 처리할 때 번역 작업에서 강점을 보였습니다.

모델의 가장 혁신적인 기능 중 하나는 MCTS 프레임워크 내에서 다양한 행동 세분성을 구현하는 것입니다. 이 접근 방식을 통해 모델은 광범위한 단계에서 32개 또는 64개 토큰의 더 정확한 "미니 단계"에 이르기까지 다양한 수준의 세부 사항에서 추론 경로를 탐색할 수 있습니다. 팀은 또한 모델이 자체 평가하고 추론을 재고하도록 하는 반영 메커니즘을 도입했으며, 이를 통해 복잡한 문제 해결 시나리오에서 정확도가 향상되었습니다.

MCTS 통합은 특히 효과적이었으며, 모든 MCTS 강화 버전의 모델이 기본 Marco-o1-CoT 버전보다 크게 향상되었습니다. 팀의 다양한 행동 세분성 실험에서 흥미로운 패턴이 드러났지만, 최적의 전략을 결정하려면 추가 연구와 더 정확한 보상 모델이 필요하다고 지적했습니다.

Benchmark comparison of the latest Marco-o1 LLM model with MCTS integration to previous AI models and variations. — *(Credit: MarcoPolo Team, AI Business, Alibaba International Digital Commerce)*

개발팀은 Marco-o1이 강력한 추론 특성을 보이지만 완전히 실현된 "o1" 모델에는 아직 미치지 못한다는 모델의 현재 한계를 투명하게 인정했습니다. 이번 릴리스는 완성된 제품이 아니라 지속적인 개선 의지를 나타냅니다.

앞으로 알리바바 팀은 Marco-o1의 의사 결정 능력을 향상시키기 위해 결과 보상 모델링(ORM) 및 프로세스 보상 모델링(PRM)을 포함한 보상 모델을 통합할 계획입니다. 또한 강화 학습 기술을 탐구하여 모델의 문제 해결 능력을 더 정교하게 개선할 예정입니다.

Marco-o1 모델과 관련 데이터셋은 포괄적인 문서와 구현 가이드와 함께 알리바바의 GitHub 리포지토리를 통해 연구 커뮤니티에 공개되었습니다. 이 릴리스에는 직접 모델 사용 및 FastAPI를 통한 배포를 위한 설치 지침과 예제 스크립트가 포함되어 있습니다.

(Photo by Alina Grubnyak)

Want to learn more about AI and big data from industry leaders? Check out AI & Big Data Expo taking place in Amsterdam, California, and London. The comprehensive event is co-located with other leading events including Intelligent Automation Conference, BlockX, Digital Transformation Week, and Cyber Security & Cloud Expo.

Explore other upcoming enterprise technology events and webinars powered by TechForge here.

The post Alibaba Marco-o1: Advancing LLM reasoning capabilities appeared first on AI News.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트