Jerome Pesenti는 누구나 다운로드, 실행 및 구축할 수 있는 강력한 오픈 소스 대규모 언어 모델 인 Llama 3을 출시하기 로 한 지난 주 Meta의 결정을 축하할 몇 가지 이유가 있습니다.
Pesenti는 Meta 의 인공 지능 부사장으로 재직했으며 다른 사람들이 사용하고 구축할 수 있도록 기술을 공개하는 것을 고려하도록 회사에 자주 압력을 가했다고 말했습니다. 그러나 그가 기뻐하는 가장 큰 이유는 그의 새로운 스타트업이 OpenAI의 업계 최고의 텍스트 생성기 GPT-4와 매우 유사하지만 실행 비용이 상당히 저렴하고 외부 조사 및 수정에 더 개방적인 AI 모델에 액세스할 수 있다는 것입니다. .
Pesenti는 “지난 금요일 출시는 게임의 판도를 완전히 바꾼 것 같은 느낌을 줍니다.”라고 말했습니다. 그의 새 회사인 AI 교사인 Sizzle은 현재 GPT-4 및 기타 폐쇄형 및 개방형 AI 모델을 사용하여 학생들을 위한 문제 세트와 커리큘럼을 제작합니다. 그의 엔지니어들은 많은 경우 Llama 3가 OpenAI 모델을 대체할 수 있는지 평가하고 있습니다.
Sizzle의 이야기는 AI의 힘의 균형에 있어 더 광범위한 변화를 예고할 수 있습니다. OpenAI는 ChatGPT로 세상을 바꾸어 AI 투자의 물결을 일으키고 200만 명 이상의 개발자를 클라우드 API로 끌어들였습니다. 그러나 오픈 소스 모델이 경쟁력이 있는 것으로 입증되면 개발자와 기업가는 OpenAI 또는 Google의 최신 모델에 액세스하기 위한 비용 지불을 중단하고 Llama 3 또는 점점 더 강력해지고 있는 다른 오픈 소스 모델 중 하나를 사용하기로 결정할 수 있습니다.
Pesenti는 Llama 3와 같은 개방형 모델과 GPT-4 및 Google의 제미니(Gemini) 와 같은 폐쇄형 모델 간의 경쟁에 대해 “흥미로운 경마가 될 것입니다.”라고 말합니다.
Meta의 이전 모델인 Llama 2는 이미 영향력이 있었지만 회사는 중복되거나 왜곡된 콘텐츠를 필터링하고 가장 좋은 콘텐츠를 선택하기 위해 개발된 새로운 기술을 사용하여 더 많은 양의 고품질 교육 데이터를 제공함으로써 최신 버전을 더욱 강력하게 만들었다고 말합니다. 사용할 데이터세트를 혼합합니다.
Pesenti는 Fireworks.ai 와 같은 클라우드 플랫폼에서 Llama 3를 실행하는 데 드는 비용은 API를 통해 GPT-4에 액세스하는 비용의 20분의 1에 불과하다고 말합니다. 그는 Llama 3가 쿼리에 매우 빠르게 응답하도록 구성할 수 있다고 덧붙였습니다. 이는 다양한 제공업체의 모델을 활용하는 자신과 같은 회사의 개발자에게 중요한 고려 사항입니다. "이것은 대기 시간, 비용 및 정확성 간의 방정식입니다."라고 그는 말합니다.
개방형 모델은 인상적인 속도로 하락하고 있는 것으로 보입니다. 몇 주 전, 저는 스타트업 Databricks에 들어가서 가장 개방적인 언어 모델인 DBRX를 구축하려는 노력의 마지막 단계를 목격했습니다 . 그 왕관은 이제 라마 3의 것입니다. Databricks의 CEO인 Ali Ghodsi는 또한 Llama 3를 "판도를 바꾸는 것"이라고 설명하며 더 큰 모델이 "오픈 소스 LLM과 비공개 소스 LLM 간의 경쟁의 장을 평준화하는 GPT 4의 품질에 접근하고 있다"고 말했습니다.
Llama 3는 또한 AI 모델을 더 작게 만들어 덜 강력한 하드웨어에서도 실행할 수 있는 가능성을 보여줍니다. Meta는 최신 모델의 두 가지 버전을 출시했습니다. 하나는 훈련 데이터에서 학습하는 데 사용하는 변수의 측정값인 700억 개의 매개변수를 포함하고 다른 하나는 80억 개의 매개변수를 포함합니다. 더 작은 모델은 노트북에서 실행할 수 있을 만큼 작지만 적어도 WIRED의 테스트에서는 놀라운 성능을 발휘합니다.
Meta가 출시되기 이틀 전, Meta의 Pesenti 팀 동문이 설립한 프랑스 AI 회사인 Mistral이 Mixtral 8x22B를 오픈 소스로 공개했습니다 . 1,410억 개의 매개변수가 있지만 한 번에 그 중 390억 개만 사용합니다. 이는 전문가의 혼합으로 알려진 설계입니다. 이 트릭 덕분에 모델은 훨씬 더 큰 일부 모델보다 훨씬 더 많은 성능을 발휘합니다.
오픈소스 AI를 출시하는 거대 기술 기업은 메타만이 아닙니다. 이번 주에 Microsoft는 Phi-3-mini를 출시했고 Apple은 스마트폰에서 실행할 수 있는 작지만 유능한 무료 언어 모델인 OpenELM을 출시했습니다.
앞으로 몇 달 동안 Llama 3 및 기타 개방형 모델이 실제로 일부 개발자의 GPT-4와 같은 프리미엄 AI 모델을 대체할 수 있는지 보여줄 것입니다. 그리고 훨씬 더 강력한 오픈소스 AI가 등장할 예정입니다. 이 회사는 수석 AI 과학자 Yann LeCun이 세계에서 가장 유능한 버전 중 하나가 되어야 한다고 말하는 Llama 3의 대규모 4000억 매개변수 버전을 개발 중입니다.
물론 이 모든 개방성은 순전히 이타적인 것은 아닙니다. Meta CEO인 Mark Zuckerberg는 AI 모델을 공개하면 궁극적으로 Meta가 자체적으로 사용할 수 있는 호환 도구 및 서비스를 생성함으로써 의존하는 기술 비용을 낮추어 회사에 이익이 될 것이라고 말했습니다. 그는 OpenAI, Microsoft 또는 Google이 해당 분야를 장악하는 것을 막는 것이 Meta에게 도움이 될 수도 있다는 점을 말하지 않았습니다.




