LIama3를 물리쳐보세요! Qwen2.5가 글로벌 오픈소스 왕좌에 올랐습니다.
후자는 매개변수 규모가 5분의 1에 불과한 멀티 태스킹에서 LIama3 405B를 능가합니다.
다양한 작업의 성능도 동일 카테고리의 다른 모델을 훨씬 능가합니다.
이전 세대에 비해 특히 일반 작업, 수학 및 코딩 기능에서 거의 포괄적인 개선을 달성했습니다.
Qwen이 역사상 가장 큰 오픈 소스라고 할 수 있다는 점은 주목할 가치가 있습니다. 기본 모델은 6~7개의 수학 및 코드 모델을 포함하여 7개의 매개변수 모델을 직접 출시합니다.
14B, 32B 및 경량 Turbo와 같은 모델은 GPT-4o-mini보다 성능이 뛰어납니다.
3B, 72B 모델을 제외한 이번 오픈소스 모델은 모두 아파치 2.0 라이선스를 따른다.
Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B 및 72B
Qwen2.5-Coder: 1.5B, 7B 및 32B(진행 중)
Qwen2.5-수학: 1.5B, 7B 및 72B.
너무 눈부셔서 일부 네티즌들은 이미 사용하기 시작했습니다.
Qwen2.5 72B는 LIama3.1 405B와 동일합니다.
Qwen2 시리즈와 비교하여 Qwen2.5 시리즈는 주로 다음과 같은 업그레이드가 있습니다.
첫째, 완전 오픈 소스입니다 .
그들의 연구에 따르면 사용자는 생산을 위한 10B-30B 매개변수 범위와 모바일 애플리케이션을 위한 3B 규모 모델에 큰 관심을 갖고 있는 것으로 나타났습니다.
따라서 동일한 크기(0.5/1.5/7/72B)의 원본 오픈 소스 모델을 기반으로 14B, 32B 및 3B 모델도 추가되었습니다.
동시에 Tongyi는 Alibaba Cloud 대형 모델 서비스 플랫폼의 API 서비스를 통해 체험할 수 있는 Qwen-Plus 및 Qwen-Turbo 버전도 출시했습니다.
모델의 절반 이상이 128K 컨텍스트를 지원하고 최대 8K 컨텍스트를 생성할 수 있음을 알 수 있습니다.
종합 평가에서 모든 모델은 Qwen2-72B보다 Qwen2.5-32B가 우수하고 Qwen2-57B-A14B보다 Qwen2.5-14B가 우수한 등 이전 세대에 비해 성능이 향상되었습니다.
둘째, 사전 훈련 데이터 세트는 더 크고 품질이 높아 원래 7조 토큰에서 최대 18조 토큰으로 확장됩니다.
그런 다음 더 많은 지식 획득, 수학적 코딩 능력, 인간 선호도에 대한 일관성 향상과 같은 다각적인 기능 향상이 있습니다.
또한 명령 추적, 긴 텍스트 생성(1,000개에서 8,000개 이상의 토큰까지), 구조화된 데이터 이해(예: 테이블) 및 구조화된 출력 생성(특히 JSON)이 크게 개선되었습니다.
실제로 살펴보겠습니다.
테이블 이해
JSON 출력 생성
또한 Qwen2.5 모델은 일반적으로 시스템 프롬프트의 다양성에 더 잘 적응하여 챗봇의 역할극 구현 및 조건 설정 기능을 향상시킵니다.
그런 다음 구체적인 모델 기능을 살펴보겠습니다.
위에서 본 것처럼 플래그십 모델은 다양한 작업에서 확실한 개선이 이루어졌습니다.
0.5B, 1.5B, 3B 등 소형 모델의 성능은 대략 다음과 같습니다.
특히 Qwen2.5-0.5B 모델은 다양한 수학 및 코딩 작업에서 Gemma2-2.6B보다 더 나은 성능을 보였습니다.
또한 Qwen2.5는 명령 조정 후 모델 성능을 보여 주었으며, 특히 수학(MATH: 83.1), 코딩(LiveCodeBench에서 탁월한 성능: 55.5) 등 여러 주요 작업에서 더 큰 Llama-3.1-405B를 능가했습니다. 채팅(아레나-하드: 81.2).
32B-Instruct, 14B-Instruct 및 Qwen2.5-Turbo와 같은 다른 제품은 GPT-4o-mini에 필적하는 기능을 시연했습니다.
Qwen의 역사상 가장 큰 오픈 소스
Qwen은 이번에 기본 모델 외에도 코드 및 수학 전문 모델도 출시했습니다.
Qwen2.5-Coder는 1.5B, 7B 및 32B 버전(출시 예정)의 세 가지 모델 크기를 제공합니다.
두 가지 주요 개선 사항은 코드 훈련 데이터 크기의 확장과 코딩 기능의 향상입니다.
Qwen2.5-Coder는 소스 코드, 텍스트 코드 기반 데이터 및 합성 데이터를 포함하여 총 5조 5천억 개의 토큰에 달하는 대규모 코드 데이터에 대해 훈련됩니다.
128K 컨텍스트를 지원하고 92개 프로그래밍 언어를 다룹니다. 오픈 소스 버전 7B는 DeepSeek-Coder-V2-Lite 및 Codestral과 같은 대규모 모델을 능가하여 현재 가장 강력한 기본 코드 모델 중 하나가 되었습니다.
수학적 모델의 경우 Qwen2.5-Math는 주로 CoT 및 TIR을 통해 영어 및 중국어 수학 문제 해결을 지원합니다.
이 모델 시리즈는 현재 다른 작업에는 권장되지 않습니다.
Qwen2.5-Math 시리즈는 오픈 소스이며 기본 모델 Qwen2.5-Math-1.5B/7B/72B, 명령 튜닝 모델 Qwen2.5-Math-1.5B/7B/72B-Instruct 및 수학적 모델을 포함합니다. 보상 모델 Qwen2 .5-Math-RM-72B.
영어 수학 문제 해결을 위해 CoT(사고 연쇄)만 지원하는 Qwen2-Math 시리즈와 달리, Qwen2.5-Math 시리즈는 중국어 및 영어 문제 해결을 위해 사고 연쇄 및 TIR(도구 통합 추론) 사용 지원을 확장합니다. 수학 문제.
이전 버전과 비교하여 기본 모델을 업그레이드하기 위해 주로 이 세 가지 작업을 수행했습니다.
Qwen2-Math-72B-Instruct 모델을 활용하여 추가적인 고품질 수학 사전 훈련 데이터를 합성합니다.
여러 기간에 걸쳐 온라인 리소스, 서적 및 코드, 특히 중국 데이터에서 보다 고품질의 수학적 데이터를 수집합니다.
매개변수 초기화를 위해 Qwen2.5 시리즈 기본 모델을 사용하여 더욱 강력한 언어 이해, 코드 생성 및 텍스트 추론 기능을 보여줍니다.
마지막으로, 대학입시 수학 문답에서 1.5B/7B/72B가 각각 3.4점, 12.2점, 19.8점 향상되었습니다.
자, 위의 내용은 "역사상 최대"라고 할 수 있는 오픈 소스 Qwen2.5 시리즈의 전체 세트입니다.
딸기라고 부르지 않고 키위라고 부르세요.
Alibaba Tongyi Open Source의 책임자인 Lin Junyang도 그 배경에 대한 몇 가지 세부 정보를 공유했습니다.
그는 Qwen2가 오픈소스화되는 순간 Qwen2.5 프로젝트가 시작되었다고 처음 말했습니다.
그 과정에서 그들은 많은 문제와 실수를 깨달았다.
예를 들어, 사전 훈련 측면에서 그들은 많은 익숙한 방법을 사용하여 사전 훈련 데이터의 품질과 양을 향상시키는 데 중점을 둡니다.
예를 들어, 텍스트 분류기를 사용하여 고품질 데이터를 불러오고, LLM 채점기를 사용하여 데이터 점수를 매겨서 품질과 수량 간의 균형을 유지합니다.
전문가 모델을 만드는 동안 팀은 이를 사용하여 합성 데이터를 생성했습니다.
이후 교육에서는 사용자의 피드백을 통해 문제를 하나씩 해결하는 동시에 RLHF 방법, 특히 온라인 학습 방법도 모색했습니다.
이후의 업그레이드와 업데이트에 관해서는 o1에서 영감을 받았으며 추론 능력이 심도 있게 연구되어야 한다고 믿었다고 말했습니다.
Qwen 2.5가 예열될 때 그들의 팀은 그것이 딸기가 아니라 키위 과일이라고 불렀다는 것을 언급할 가치가 있습니다.
자, 이제 키위를 빠르게 사용할 수 있습니다.
참조 링크:
[1]https://x.com/JustinLin610/status/1836461575965938104
[2]https://x.com/Alibaba_Qwen/status/1836449414220779584[3]https://qwenlm.github.io/blog/qwen2.5/
[4]https://qwenlm.github.io/blog/qwen2.5-llm/
[5]https://qwenlm.github.io/blog/qwen2.5-coder/
[6]https://qwenlm.github.io/blog/qwen2.5-math/
이 기사는 WeChat 공개 계정 "Qubit" 에서 가져온 것입니다. 저자: Bai Xiaojiao, 36 Krypton은 허가를 받아 게시되었습니다.