Microsoft는 개방형 소규모 언어 모델(SLM)의 Phi-3 제품군을 발표하여 현재 크기 중 가장 유능하고 비용 효율적인 모델이라고 소개했습니다. Microsoft 연구원이 개발한 혁신적인 교육 접근 방식을 통해 Phi-3 모델은 언어, 코딩 및 수학 벤치마크에서 대규모 모델보다 뛰어난 성능을 발휘할 수 있었습니다.
“우리가 보게 될 것은 큰 모델에서 작은 모델로의 전환이 아니라 단일 모델 범주에서 고객이 자신에게 가장 적합한 모델이 무엇인지 결정할 수 있는 모델 포트폴리오로의 전환입니다. Microsoft의 Generative AI 수석 제품 관리자인 Sonali Yadav는 말했습니다.
38억 개의 매개변수를 갖춘 첫 번째 Phi-3 모델인 Phi-3-mini는 이제 Azure AI 모델 카탈로그 , Hugging Face , Ollama 및 NVIDIA NIM 마이크로서비스에서 공개적으로 제공됩니다. 컴팩트한 크기에도 불구하고 Phi-3-mini는 크기가 두 배인 모델보다 성능이 뛰어납니다. Phi-3-소형(7B 매개변수) 및 Phi-3- 미디엄(Medium) (14B 매개변수)과 같은 추가 Phi-3 모델이 곧 출시될 예정입니다.
phi-3-mini: Mixtral 8x7B 및 GPT-3.5와 일치하는 3.8B 모델
— 미라(@_Mira___Mira_) 2024년 4월 23일
또한 많은 벤치마크에서 Llama 3 8B와 일치하는 7B 모델도 있습니다.
게다가 14B 모델도 있습니다. https://t.co/2h0xahzUUS pic.twitter.com/XaED6mJL1V
Microsoft AI 부문 부사장인 Luis Vargas는 “일부 고객에게는 작은 모델만 필요할 수도 있고, 일부 고객에게는 큰 모델이 필요할 수도 있으며, 많은 고객은 다양한 방식으로 두 모델을 결합하기를 원할 것입니다.”라고 말했습니다.
SLM의 주요 장점은 네트워크 연결 없이 지연 시간이 짧은 AI 환경을 위한 온디바이스 배포가 가능하도록 크기가 작다는 것입니다. 잠재적인 사용 사례에는 스마트 센서, 카메라, 농사 장비 등이 포함됩니다. 개인 정보 보호는 장치에 데이터를 보관함으로써 얻을 수 있는 또 다른 이점입니다.

대규모 언어 모델(LLM)은 방대한 데이터 세트에 대한 복잡한 추론에 탁월합니다. 이는 과학 문헌 전반의 상호 작용을 이해함으로써 신약 발견과 같은 응용 분야에 적합한 강점입니다. 그러나 SLM은 보다 간단한 질의 응답, 요약, 콘텐츠 생성 등에 대한 강력한 대안을 제공합니다.
Iris.ai 의 CTO이자 공동 창립자인 Victor Botev는 “Microsoft는 점점 더 큰 모델을 쫓는 대신 보다 신중하게 선별된 데이터와 전문 교육을 통해 도구를 개발하고 있습니다.”라고 말했습니다.
“이를 통해 수조 개의 매개변수가 있는 모델에 막대한 계산 비용을 들이지 않고도 성능과 추론 능력을 향상시킬 수 있습니다. 이 약속을 이행한다는 것은 AI 솔루션을 찾는 기업의 거대한 도입 장벽을 허무는 것을 의미합니다.”
획기적인 훈련 기술
Microsoft의 SLM 품질 도약을 가능하게 한 것은 취침 시간 동화책에서 영감을 받은 혁신적인 데이터 필터링 및 생성 접근 방식이었습니다.
“단지 원시 웹 데이터로 훈련하는 대신, 매우 높은 품질의 데이터를 찾아보는 것은 어떨까요?” SLM 연구를 이끄는 Microsoft VP인 Sebastien Bubeck에게 물었습니다.
Ronen Eldan이 딸과 함께 하는 야간 독서 루틴은 4세 어린이가 알 수 있는 단어 조합으로 대형 모델을 유도하여 생성된 수백만 개의 간단한 내러티브로 구성된 'TinyStories' 데이터세트를 생성하려는 아이디어를 촉발시켰습니다. 놀랍게도 TinyStories에서 훈련된 1천만 개의 매개변수 모델은 완벽한 문법을 갖춘 유창한 스토리를 생성할 수 있습니다.
이러한 초기 성공을 바탕으로 팀은 'CodeTextbook' 데이터세트를 만들기 위해 교육적 가치가 검증된 고품질 웹 데이터를 확보했습니다. 이는 인간과 대규모 AI 모델 모두에 의한 프롬프트, 생성 및 필터링을 통해 합성되었습니다.
"이러한 합성 데이터를 생성하는 데는 많은 주의가 필요합니다"라고 Bubeck은 말했습니다. “우리는 우리가 생산하는 모든 것을 가져가지 않습니다.”
고품질 훈련 데이터는 혁신적인 것으로 입증되었습니다. "교과서와 같은 자료를 읽는 것이기 때문에… 언어 모델의 작업을 통해 이 자료를 훨씬 쉽게 읽고 이해할 수 있습니다."라고 Bubeck은 설명했습니다.
AI 안전 위험 완화
사려 깊은 데이터 큐레이션에도 불구하고 Microsoft는 모든 생성 AI 모델에 대한 표준 프로세스를 반영하여 Phi-3 릴리스에 추가적인 안전 관행을 적용하는 것을 강조합니다.
블로그 게시물에서는 “모든 생성 AI 모델 릴리스와 마찬가지로 Microsoft의 제품 및 담당 AI 팀은 Phi-3 모델 개발 시 위험을 관리하고 완화하기 위해 다층적인 접근 방식을 사용했습니다.”라고 밝혔습니다.
여기에는 예상되는 동작을 강화하기 위한 추가 교육 예제, 레드팀 구성을 통해 취약성을 식별하기 위한 평가, 고객이 Phi-3 위에 신뢰할 수 있는 애플리케이션을 구축할 수 있는 Azure AI 도구 제공이 포함되었습니다.
(사진: Tadas Sar )
참조: Microsoft, 한국 기술 리더들과 AI 파트너십 구축

업계 리더로부터 AI 및 빅데이터에 대해 자세히 알아보고 싶으십니까? 암스테르담, 캘리포니아, 런던에서 열리는 AI & 빅데이터 엑스포를 확인해보세요. 종합 이벤트는 BlockX , Digital Transformation Week , Cyber Security & Cloud Expo 를 포함한 다른 주요 이벤트와 함께 개최됩니다.
여기에서 TechForge가 제공하는 기타 향후 엔터프라이즈 기술 이벤트와 웹 세미나를 살펴보세요.
Microsoft가 컴팩트 언어 모델의 Phi-3 제품군을 공개한 게시물이 AI News 에 처음 등장했습니다.





