알리바바의 Qwen 팀은 훨씬 더 큰 DeepSeek-R1과 성능이 맞먹는 320억 매개변수의 AI 모델 QwQ-32B를 공개했습니다. 이 돌파구는 강화 학습(RL)을 견고한 기반 모델에 적용할 수 있는 잠재력을 보여줍니다.
Qwen 팀은 에이전트 기능을 추론 모델에 성공적으로 통합했으며, 이를 통해 비판적으로 사고하고, 도구를 활용하며, 환경 피드백에 따라 추론을 적응시킬 수 있게 되었습니다.
"RL 확장은 기존의 사전 훈련 및 사후 훈련 방법을 넘어 모델 성능을 향상시킬 잠재력이 있습니다." 팀은 말했습니다. "최근 연구에 따르면 RL은 모델의 추론 능력을 크게 향상시킬 수 있습니다."
QwQ-32B는 6710억 매개변수(37억 활성화)를 자랑하는 DeepSeek-R1과 비슷한 성능을 달성했습니다. 이는 견고한 기반 모델에 RL을 적용하면 모델 크기와 성능 사이의 격차를 해소할 수 있음을 보여줍니다.
이 모델은 수학적 추론, 코딩 숙련도, 일반적인 문제 해결 능력을 평가하기 위해 설계된 AIME24, LiveCodeBench, LiveBench, IFEval, BFCL 등 다양한 벤치마크에서 평가되었습니다.
벤치마크 결과:
- AIME24: QwQ-32B는 79.5점을 기록하여 DeepSeek-R1-6718의 79.8점에 약간 뒤졌지만, OpenAl-o1-mini의 63.6점과 증류 모델을 크게 앞섰습니다.
- LiveCodeBench: QwQ-32B는 63.4점을 기록했으며, DeepSeek-R1-6718의 65.9점과 근접했고 증류 모델과 OpenAl-o1-mini의 53.8점을 능가했습니다.
- LiveBench: QwQ-32B는 73.1점을 기록했으며, DeepSeek-R1-6718이 71.6점을 기록했고 증류 모델과 OpenAl-o1-mini의 57.5점을 능가했습니다.
- IFEval: QwQ-32B는 83.9점을 기록했으며, DeepSeek-R1-6718의 83.3점과 매우 근접했고 증류 모델과 OpenAl-o1-mini의 59.1점을 앞섰습니다.
- BFCL: QwQ-32B는 66.4점을 기록했으며, DeepSeek-R1-6718이 62.8점을 기록했고 증류 모델과 OpenAl-o1-mini의 49.3점을 능가했습니다.
Qwen 팀의 접근 방식에는 콜드 스타트 체크포인트와 결과 기반 보상으로 구동되는 다단계 RL 프로세스가 포함되었습니다. 초기 단계에서는 수학 및 코딩 과제에 대한 RL 확장에 중점을 두었고, 두 번째 단계에서는 일반적인 기능으로 확장되었습니다.
"수학 및 코딩 성능에 큰 저하 없이 지침 준수, 인간 선호도 정렬, 에이전트 성능 등 다른 일반적인 기능의 성능을 향상시킬 수 있다는 것을 발견했습니다." 팀은 설명했습니다.
QwQ-32B는 오픈 웨이트이며 Apache 2.0 라이선스 하에 Hugging Face와 ModelScope에서 사용할 수 있으며 Qwen Chat을 통해서도 접근할 수 있습니다. Qwen 팀은 이를 RL을 확장하여 추론 능력을 향상시키는 첫 단계로 보며, RL과 에이전트의 통합을 더 탐구할 계획입니다.
"다음 세대의 Qwen을 개발하는 과정에서 강력한 기반 모델과 확장된 계산 자원으로 구동되는 RL을 결합하면 인공 일반 지능(AGI)에 한 걸음 더 다가갈 수 있을 것으로 확신합니다." 팀은 말했습니다.
참고: Deepgram Nova-3 Medical: AI 음성 모델이 의료 전사 오류 감소

업계 리더들로부터 AI와 빅데이터에 대해 더 자세히 알아보고 싶으신가요? AI & Big Data Expo에 참석해 보세요. 이 종합 행사는 Intelligent Automation Conference, BlockX, Digital Transformation Week, Cyber Security & Cloud Expo 등 다른 주요 행사와 함께 개최됩니다.
TechForge에서 제공하는 다른 upcoming 엔터프라이즈 기술 행사와 웨비나를 여기에서 확인하세요.
이 기사는 AI News에 처음 게재되었습니다.





