Ai2 OLMo 2: 개방형 언어 모델의 기준 높이기

avatar
AI News
11-28
이 기사는 기계로 번역되었습니다
원문 표시

Ai2는 인공지능 민주화와 오픈 솔루션과 독점 솔루션 간의 격차를 좁히는 오픈 소스 언어 모델 OLMo 2 제품군을 출시하고 있습니다.

새로운 모델은 70억 개와 130억 개의 매개변수 버전으로 제공되며, 최대 5조 개의 토큰으로 학습되었고 영어 학술 벤치마크에서 Llama 3.1과 같은 오픈 가중치 모델과 경쟁할 수 있는 성능 수준을 보여줍니다.

"2024년 2월 첫 OLMo 출시 이후, 우리는 오픈 언어 모델 생태계의 급속한 성장과 오픈 모델과 독점 모델 간의 성능 격차 축소를 목격했습니다."라고 Ai2가 설명했습니다.

개발팀은 향상된 훈련 안정성 조치, 단계적 훈련 접근법, 그리고 Tülu 3 프레임워크에서 파생된 최신 사후 훈련 방법론을 포함한 여러 혁신을 통해 이러한 개선을 달성했습니다. 주목할 만한 기술적 개선에는 비매개변수 레이어 노름에서 RMSNorm으로의 전환과 회전 위치 임베딩의 구현이 포함됩니다.

OLMo 2 모델 훈련 돌파구

훈련 프로세스는 정교한 2단계 접근법을 활용했습니다. 초기 단계에서는 약 3.9조 개의 토큰으로 구성된 OLMo-Mix-1124 데이터셋을 사용했으며, 이는 DCLM, Dolma, Starcoder, Proof Pile II에서 수집되었습니다. 두 번째 단계에서는 고품질 웹 데이터와 도메인별 콘텐츠의 신중하게 선별된 혼합물을 Dolmino-Mix-1124 데이터셋에 통합했습니다.

특히 주목할 만한 것은 OLMo 2-Instruct-13B 변형으로, 이 시리즈에서 가장 강력한 모델입니다. 이 모델은 다양한 벤치마크에서 Qwen 2.5 14B instruct, Tülu 3 8B, Llama 3.1 8B instruct 모델보다 우수한 성능을 보여줍니다.

Benchmarks comparing the OLMo 2 open large language model to other models such as Mistral, Qwn, Llama, Gemma, and more.
(Credit: Ai2)

오픈 과학에 대한 헌신

오픈 과학에 대한 헌신을 강화하기 위해, Ai2는 가중치, 데이터, 코드, 레시피, 중간 체크포인트, 지침 조정 모델 등을 포함한 포괄적인 문서를 공개했습니다. 이러한 투명성을 통해 AI 커뮤니티 전체가 결과를 완전히 검사하고 재현할 수 있습니다.

이번 출시에는 지식 회상, 상식 추론, 수학적 추론과 같은 핵심 기능을 평가하기 위해 20개의 벤치마크로 구성된 OLMES(Open Language Modeling Evaluation System) 평가 프레임워크도 소개됩니다.

OLMo 2는 오픈 소스 AI 개발의 기준을 높여, 투명성과 접근성을 유지하면서 이 분야의 혁신 속도를 가속화할 수 있습니다.

(Photo by Rick Barrett)

또한 참고: OpenAI, 새로운 레드 팀 방법으로 AI 안전성 향상

업계 리더로부터 AI와 빅데이터에 대해 더 자세히 알아보고 싶으신가요? AI & Big Data Expo에 참석해 보세요. 암스테르담, 캘리포니아, 런던에서 개최되는 이 종합 행사는 Intelligent Automation Conference, BlockX, Digital Transformation Week, Cyber Security & Cloud Expo와 같은 다른 주요 행사와 함께 개최됩니다.

TechForge에서 제공하는 다른 upcoming 엔터프라이즈 기술 행사와 웨비나를 여기에서 확인하세요.

이 기사는 AI News에 처음 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
코멘트