Qwen 2.5-Max는 일부 벤치마크에서 DeepSeek V3보다 성능이 우수합니다.

avatar
AI News
01-29
이 기사는 기계로 번역되었습니다
원문 표시

알리바바의 DeepSeek에 대한 대응은 Qwen 2.5-Max, 회사의 최신 Mixture-of-Experts(MoE) 대규모 모델입니다.

Qwen 2.5-Max는 200조 개 이상의 토큰으로 사전 학습되었으며, 감독 하 미세 조정(SFT) 및 인간 피드백 강화 학습(RLHF)과 같은 최첨단 기술을 통해 미세 조정되었습니다.

알리바바 클라우드를 통해 API를 사용할 수 있게 되었고, Qwen Chat을 통해 모델을 탐색할 수 있게 되면서, 중국 기술 기업은 개발자와 연구자들에게 자사의 혁신을 직접 경험할 수 있는 기회를 제공하고 있습니다.

동료들을 능가하다

Qwen 2.5-Max의 성능을 다양한 벤치마크에서 가장 두드러진 AI 모델들과 비교했을 때, 그 결과는 매우 고무적입니다.

평가에는 대학 수준의 문제 해결을 위한 MMLU-Pro, 코딩 전문성을 위한 LiveCodeBench, 전반적인 기능을 위한 LiveBench, 인간 선호도 평가를 위한 Arena-Hard 등의 인기 지표가 포함되었습니다.

알리바바에 따르면 "Qwen 2.5-Max는 Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond 등의 벤치마크에서 DeepSeek V3를 능가했으며, MMLU-Pro를 포함한 다른 평가에서도 경쟁력 있는 결과를 보였습니다."

AI 벤치마크 비교: 알리바바 Qwen 2.5-Max vs. 다른 인공지능 모델(DeepSeek V3 등)
(출처: 알리바바)

채팅 및 코딩과 같은 하위 작업을 위해 설계된 이 지시 모델은 GPT-4o, Claude-3.5-Sonnet, DeepSeek V3 등의 선도적인 모델들과 직접 경쟁하고 있습니다. 이 중 Qwen 2.5-Max는 여러 핵심 영역에서 경쟁자들을 능가했습니다.

기본 모델 간 비교에서도 유망한 결과가 도출되었습니다. GPT-4o와 Claude-3.5-Sonnet 같은 독점 모델은 접근 제한으로 인해 평가 대상에서 제외되었지만, Qwen 2.5-Max는 DeepSeek V3, Llama-3.1-405B(최대 공개 가중치 밀집 모델), Qwen2.5-72B 등의 선도적인 공개 옵션과 비교되었습니다. 여기서도 알리바바의 신규 모델이 전반적으로 뛰어난 성능을 보였습니다.

"우리의 기본 모델들은 대부분의 벤치마크에서 상당한 장점을 입증했으며, 향후 Qwen 2.5-Max의 다음 버전이 새로운 높이에 도달할 수 있을 것이라 기대하고 있습니다."라고 알리바바는 밝혔습니다.

DeepSeek V3의 등장은 대규모 MoE 모델에 대한 AI 커뮤니티 전체의 관심을 끌었습니다. 동시에 우리는 방대한 데이터로 사전 학습되고 정제된 SFT 및 RLHF 기법으로 사후 학습된 대규모 MoE LLM인 Qwen2.5-Max를 구축해 왔습니다. 이는 경쟁력 있는... pic.twitter.com/oHVl16vfje

— Qwen (@Alibaba_Qwen) 2025년 1월 28일

Qwen 2.5-Max 접근성 높이기

Qwen 2.5-Max를 전 세계 커뮤니티에 더 접근 가능하게 하기 위해, 알리바바는 이 모델을 자사의 Qwen Chat 플랫폼에 통합했습니다. 사용자들은 검색 기능 탐색부터 복잡한 질문에 대한 이해력 테스트까지 다양한 방식으로 모델과 상호 작용할 수 있습니다.

개발자들을 위해 Qwen 2.5-Max API는 이제 "qwen-max-2025-01-25" 모델명으로 알리바바 클라우드에서 제공됩니다. 관심 있는 사용자들은 알리바바 클라우드 계정을 등록하고, Model Studio 서비스를 활성화한 후 API 키를 생성하면 시작할 수 있습니다.

이 API는 OpenAI 생태계와도 호환되어, 기존 프로젝트와 워크플로우에 쉽게 통합할 수 있습니다. 이러한 호환성은 모델의 기능을 테스트하고자 하는 사용자들의 진입 장벽을 낮춥니다.

알리바바는 Qwen 2.5-Max로 강력한 의지를 표명했습니다. 이 회사의 AI 모델 확장에 대한 지속적인 노력은 단순히 성능 벤치마크를 개선하는 것뿐만 아니라 이러한 시스템의 근본적인 사고와 추론 능력을 향상시키는 것에 초점을 맞추고 있습니다.

"데이터와 모델 규모의 확장은 모델 지능의 발전을 보여줄 뿐만 아니라 선구적인 연구에 대한 우리의 확고한 의지를 반영합니다."라고 알리바바는 언급했습니다.

앞으로 팀은 강화 학습의 경계를 넓혀 더욱 발전된 추론 능력을 육성하고자 합니다. 이를 통해 자사 모델이 복잡한 문제를 해결하는 데 있어 인간 지능을 능가할 수 있을 것이라고 말했습니다.

이는 업계에 심대한 영향을 미칠 수 있습니다. 확장 방법이 개선되고 Qwen 모델이 새로운 영역을 개척함에 따라, 우리는 최근 몇 주 동안 목격했던 것과 같은 AI 기반 분야 전반에 걸친 파급 효과를 더 많이 볼 수 있을 것입니다.

(사진 제공: Maico Amorim)

관련 기사: ChatGPT Gov, 미국 정부 기관 현대화를 목표로 하다

AI와 빅데이터에 대해 업계 리더들에게 더 자세히 알아보고 싶으신가요? AI & Big Data Expo에 참석해 보세요. 암스테르담, 캘리포니아, 런던에서 개최되는 이 종합 행사는 Intelligent Automation Conference, BlockX, Digital Transformation Week, Cyber Security & Cloud Expo 등 다른 주요 행사와 함께 개최됩니다.

TechForge에서 제공하는 다른 upcoming 엔터프라이즈 기술 행사와 웨비나를 여기에서 확인하세요.

이 기사는 AI News에 처음 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트