오픈소스 AI에 있어서 이번 주는 좋은 주였습니다.
수요일에 Meta는 최첨단 대규모 언어 모델인 Llama 3.2의 업그레이드를 발표했는데, 이것은 말할 뿐만 아니라 볼 수도 있습니다.
더욱 흥미로운 점은 일부 버전은 품질이 손상되지 않고도 스마트폰에 탑재할 수 있다는 점입니다. 즉, 타사 서버로 데이터를 전송하지 않고도 비공개 로컬 AI 상호작용, 앱 및 사용자 정의 기능을 사용할 수 있다는 뜻입니다.
수요일에 Meta Connec t에서 공개된 Llama 3.2는 4가지 맛으로 출시되었으며, 각각 다른 펀치를 제공합니다. 중량급 경쟁자( 11B 및 90B 매개변수 모델)는 텍스트와 이미지 처리 기능을 모두 갖추고 있습니다.
그들은 차트 분석, 이미지 캡션 추가, 심지어 자연어 설명을 기반으로 그림 속의 물체를 정확히 지적하는 등 복잡한 작업을 처리할 수 있습니다.
Llama 3.2는 Allen Institute의 Molmo와 같은 주에 출시되었습니다. Molmo는 합성 벤치마크에서 최고의 오픈소스 멀티모달 비전 LLM 이라고 주장했으며 , 테스트 결과 GPT-4o, Claude 3.5 Sonnet, Reka Core와 동등한 성능을 보였습니다.
주커버그의 회사는 또한 두 가지 새로운 플라이급 챔피언을 소개했습니다. 효율성, 속도, 그리고 너무 많은 계산이 필요하지 않은 제한적이지만 반복적인 작업을 위해 설계된 1B 와 3B 매개변수 모델입니다.
이 작은 모델은 "도구 호출"에 재주가 있는 다국어 텍스트 거장이며, 프로그래밍 도구와 더 잘 통합할 수 있습니다. 작은 크기에도 불구하고 GPT4o 및 기타 강력한 모델과 동일한 128K 토큰 컨텍스트 창을 자랑하여 장치 내 요약, 지침 따르기 및 작업 다시 쓰기에 이상적입니다.
Meta의 엔지니어링 팀은 이를 실현하기 위해 심각한 디지털 체조를 했습니다. 먼저, 그들은 구조화된 가지치기를 사용하여 더 큰 모델에서 불필요한 데이터를 다듬은 다음, 지식 증류(대형 모델에서 더 작은 모델로 지식을 이전)를 사용하여 여분의 스마트를 압축했습니다.
그 결과, 각 체급에서 경쟁사 제품보다 우수한 성능을 보이는 컴팩트 모델이 탄생했으며, 다양한 벤치마크에서 구글의 Gemma 2 2.6B와 마이크로소프트의 Phi-2 2.7B 등의 모델보다 우수한 성적을 거두었습니다.
Meta는 또한 온디바이스 AI를 강화하기 위해 노력하고 있습니다. 그들은 하드웨어 거물인 Qualcomm, MediaTek, Arm과 제휴하여 Llama 3.2가 첫날부터 모바일 칩과 잘 호환되도록 했습니다. 클라우드 컴퓨팅 거물도 제외되지 않았습니다. AWS, Google Cloud, Microsoft Azure 등 많은 기업이 자사 플랫폼에서 새로운 모델에 대한 즉각적인 액세스를 제공하고 있습니다.
후드 아래에서 Llama 3.2의 비전 기능은 영리한 구조적 조정에서 비롯됩니다. Meta의 엔지니어는 기존 언어 모델에 어댑터 가중치를 넣어 사전 훈련된 이미지 인코더와 텍스트 처리 코어 간의 브리지를 만들었습니다.
다시 말해, 이 모델의 비전 기능은 텍스트 처리 기능을 희생해서 얻어진 것이 아니므로 사용자는 Llama 3.1과 비교했을 때 비슷하거나 더 나은 텍스트 결과를 기대할 수 있습니다.
Llama 3.2 릴리스는 오픈 소스입니다. 적어도 Meta의 기준으로는 그렇습니다 . Meta는 Llama.com 과 Hugging Face 에서 모델을 다운로드할 수 있도록 제공하고 있으며, 광범위한 파트너 생태계를 통해서도 가능합니다.
클라우드에서 이를 실행하고 싶은 사람은 자체 Google Collab Notebook을 사용하거나 텍스트 기반 상호작용을 위해 Groq를 사용하여 3초 이내에 약 5,000개의 토큰을 생성할 수 있습니다.
우리는 Llama 3.2의 성능을 시험하고 다양한 작업에 걸쳐 그 성능을 빠르게 테스트했습니다.
텍스트 기반 상호작용에서 이 모델은 이전 모델과 동등한 성능을 보였습니다. 그러나 코딩 능력은 엇갈린 결과를 가져왔습니다.
Groq 플랫폼에서 테스트했을 때, Llama 3.2는 인기 게임과 간단한 프로그램에 대한 코드를 성공적으로 생성했습니다. 그러나 더 작은 70B 모델은 우리가 고안한 사용자 지정 게임에 대한 기능적 코드를 만들라는 요청을 받았을 때 비틀거렸습니다. 그러나 더 강력한 90B는 훨씬 더 효율적이었고 첫 번째 시도에서 기능적 게임을 생성했습니다.
이 링크(Chainlink) 를 클릭 하면 Llama-3.2에서 생성된 전체 코드와 우리가 테스트한 다른 모든 모델을 볼 수 있습니다.
Llama 3.2는 이미지에서 주관적인 요소를 식별하는 데 뛰어납니다. 미래적이고 사이버펑크 스타일의 이미지가 제시되고 스팀펑크 미학에 맞는지 물었을 때, 모델은 스타일과 그 요소를 정확하게 식별했습니다. 해당 장르와 관련된 핵심 요소가 없기 때문에 이미지가 스팀펑크와 일치하지 않는다고 언급하며 만족스러운 설명을 제공했습니다.
차트 분석은 Llama 3.2의 또 다른 강점이지만 최적의 성능을 위해서는 고해상도 이미지가 필요합니다. Molmo나 Reka와 같은 다른 모델이 해석할 수 있는 차트가 포함된 스크린샷을 입력했을 때 Llama의 시각 기능이 흔들렸습니다. 모델은 사과하며 이미지 품질로 인해 글자를 제대로 읽을 수 없다고 설명했습니다.
Llama 3.2는 차트의 작은 텍스트에 어려움을 겪었지만, 큰 이미지의 텍스트를 읽을 때는 완벽하게 수행했습니다. 사람을 소개하는 프레젠테이션 슬라이드를 보여주었고, 모델은 맥락을 성공적으로 이해하여 오류 없이 이름과 직무 역할을 구분했습니다.
전반적으로 Llama 3.2는 이전 세대에 비해 크게 개선되었으며 오픈소스 AI 산업에 큰 도움이 될 것입니다. 이 제품의 강점은 이미지 해석과 대형 텍스트 인식에 있으며, 특히 품질이 낮은 이미지를 처리하고 복잡한 사용자 지정 코딩 작업을 처리하는 데 있어 잠재적으로 개선할 수 있는 부분이 있습니다.
기기 간 호환성에 대한 약속은 개인 및 로컬 AI 작업의 미래에도 도움이 되며, 제미니(Gemini) Nano 및 Apple의 자체 모델과 같은 폐쇄적인 제안에 대한 훌륭한 견제수단입니다.
Josh Quittner 와 Sebastian Sinclair 가 편집




