새로운 오픈소스 AI 모델, 훨씬 적은 훈련 데이터로 DeepSeek의 성능과 경쟁

avatar
Decrypt
02-13
이 기사는 기계로 번역되었습니다
원문 표시

국제 연구진들이 선도적인 학술 기관과 기술 기업에서 수요일에 AI 추론 분야를 뒤집어 놓았습니다. 이들은 중국의 가장 정교한 AI 시스템 중 하나인 DeepSeek와 맞먹거나 때로는 능가하는 새로운 모델을 개발했습니다.

Open Thoughts 컨소시엄이 개발한 OpenThinker-32B는 MATH500 벤치마크에서 90.6%의 정확도 점수를 얻어 DeepSeek의 89.4%를 넘어섰습니다.

이 모델은 또한 일반 문제 해결 과제에서 DeepSeek를 능가했으며, GPQA-Diamond 벤치마크에서 57.6점을 받은 DeepSeek에 비해 61.6점을 받았습니다. LCBv2 벤치마크에서는 68.9점을 기록하며 다양한 테스트 시나리오에서 강력한 성능을 보였습니다.

다시 말해, 이는 DeepSeek R1과 유사한 크기의 버전보다 일반 과학 지식(GPQA-Diamond)에서 우수합니다. 또한 MATH500에서 DeepSeek를 이겼지만 수학 실력을 측정하려는 AIME 벤치마크에서는 졌습니다.

코딩 부분에서는 68.9점으로 DeepSeek의 71.2점보다 약간 낮지만, 이 모델이 오픈 소스이기 때문에 사람들이 개선하면 이 점수가 크게 향상될 수 있습니다.

이 성과를 돋보이게 하는 것은 효율성입니다. OpenThinker는 이러한 결과를 달성하기 위해 114,000개의 학습 예만 필요했지만, DeepSeek는 800,000개를 사용했습니다.

OpenThoughts-114k 데이터셋에는 각 문제에 대한 자세한 메타데이터가 포함되어 있습니다: 정답 솔루션, 코드 문제에 대한 테스트 케이스, 필요한 경우 시작 코드, 그리고 도메인별 정보.

맞춤형 Curator 프레임워크는 테스트 케이스에 대한 코드 솔루션을 검증했으며, AI 판사가 수학 검증을 처리했습니다.

팀은 8개의 H100 GPU가 장착된 4개의 노드를 사용하여 약 90시간 만에 작업을 완료했다고 보고했습니다. 137,000개의 검증되지 않은 샘플로 구성된 별도의 데이터셋은 이탈리아의 Leonardo 슈퍼컴퓨터에서 단 30시간 만에 11,520개의 A100 시간을 소모했습니다.

"검증은 교육 프롬프트의 다양성과 규모를 확장하는 동시에 품질을 유지하는 데 도움이 됩니다."라고 팀은 문서에 밝혔습니다. 연구 결과 검증되지 않은 버전도 잘 수행했지만, 검증된 모델의 최고 결과에는 미치지 못했습니다.

이 모델은 알리바바의 Qwen2.5-32B-Instruct LLM을 기반으로 구축되었으며 16,000개 토큰의 modest 문맥 창을 지원합니다. 이는 복잡한 수학적 증명과 길이가 긴 코딩 문제를 처리하기에 충분하지만, 현재 기준에 비하면 훨씬 적습니다.

이 릴리스는 AI 추론 기능에 대한 경쟁이 심화되고 있는 가운데 이루어졌습니다. OpenAI는 2월 12일 GPT-5 이후의 모든 모델에 추론 기능이 포함될 것이라고 발표했습니다. 그 다음 날 Elon Musk는 xAI의 Grok-3가 향상된 문제 해결 기능을 가지고 있다고 홍보했으며, 몇 시간 전에는 Nous Research가 Meta의 Llama 3.1을 기반으로 한 또 다른 오픈 소스 추론 모델인 DeepHermes를 출시했습니다.

이 분야는 DeepSeek가 OpenAI의 o1과 비교 가능한 성능을 크게 낮은 비용으로 보여준 이후 탄력을 받았습니다. DeepSeek R1은 무료로 다운로드, 사용 및 수정할 수 있으며 교육 기술도 공개되었습니다.

그러나 Open Thoughts와 달리 DeepSeek 개발팀은 교육 데이터를 비공개로 유지했습니다.

이러한 핵심적인 차이로 인해 개발자들은 DeepSeek보다 OpenThinker를 이해하고 처음부터 재현하기가 더 쉬울 것입니다.

더 넓은 AI 커뮤니티에 이번 릴리스는 대규모 독점 데이터셋 없이도 경쟁력 있는 모델을 구축할 수 있다는 것을 다시 한 번 보여줍니다. 또한 중국 모델을 사용하는 것에 대해 여전히 불안감을 가지고 있는 서구 개발자들에게 더 신뢰할 수 있는 경쟁자가 될 수 있습니다.

OpenThinker는 HuggingFace에서 다운로드할 수 있습니다. 성능이 낮은 7B 매개변수 모델도 저사양 기기에 사용할 수 있습니다.

Open Thoughts 팀은 스탠포드, 버클리, UCLA 등 미국 대학과 독일 율리히 슈퍼컴퓨팅 센터의 연구원들을 한데 모았습니다. 미국 도요타 연구소와 EU AI 분야의 다른 주요 플레이어들도 이를 지원하고 있습니다.

편집: Josh QuittnerSebastian Sinclair

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
1
코멘트
Followin logo