구글이 가장 강력한 엣지 측 소형 모델을 오픈 소스로 공개했습니다. 2B 매개변수로 GPT-3.5-Turbo를 능가하며, 애플 15Pro에서 매우 빠르게 실행됩니다.

avatar
36氪
08-01
이 기사는 기계로 번역되었습니다
원문 표시

올해 6월 말 구글은 젬마 2 모델 시리즈의 9B, 27B 버전을 오픈소스화했으며, 27B 버전은 출시 이후 대형 모델 분야 LMSYS 챗봇 분야에서 단숨에 상위권 오픈 모델로 자리 잡았다. 실제 대화 작업에서는 두 배의 크기를 가진 모델이 더 나은 성능을 발휘합니다.

오늘날, 책임 있는 AI 추구를 바탕으로 Google은 이 일련의 모델의 안전성과 접근성에 더 많은 배려를 했으며 일련의 새로운 결과를 달성했습니다.

이번에 Gemma 2에는 더 가벼운 " Gemma 2 2B " 버전이 있을 뿐만 아니라 보안 콘텐츠 분류 모델 " ShieldGemma "와 모델 해석 도구 " Gemma Scope "도 구축합니다. 세부사항은 다음과 같습니다:

Gemma 2 2B는 내장된 보안 개선 기능을 통해 성능과 효율성의 강력한 균형을 제공합니다.

ShieldGemma는 Gemma 2를 기반으로 구축되었으며 사용자 안전을 보장하기 위해 AI 모델의 입력 및 출력을 필터링하는 데 사용됩니다.

Gemma Scope는 모델의 내부 작동에 대한 탁월한 통찰력을 제공합니다.

그 중 Gemma 2 2B는 의심할 여지없이 "가장 눈부신 것"입니다. 대형 모델 경기장 LMSYS Chatbot Arena에서의 결과는 눈길을 끕니다. 이는 GPT-3.5-Turbo보다 ​​높은 20억 매개변수만으로 1130점을 기록했습니다. 0613) 및 Mixtral-8x7b.

이는 또한 Gemma 2 2B가 최종 모델에 가장 적합한 선택이 될 것임을 의미합니다.

Apple MLR(머신러닝(ML) Research) 팀의 연구원인 Awni Hannun은 4비트 양자화 버전을 사용하여 iPhone 15 pro에서 실행되는 Gemma 2 2B를 보여주었고, 그 결과 속도가 상당히 빠른 것으로 나타났습니다.

또한, 젬마2 2B는 얼마 전 많은 대형 모델들이 뒤집은 '9.9와 9.11 중 누가 더 큰가?'라는 질문에도 쉽게 답할 수 있다.

사진 출처: https://x.com/tuturetom/status/1818823253634564134

동시에 Google Gemma 2 2B의 강력한 성능에서도 추세를 볼 수 있습니다. 즉, '소형' 모델은 점차 대형 모델과 경쟁할 수 있는 자신감과 성능 이점을 갖게 됩니다.

이러한 추세는 업계 일부 사람들의 관심도 끌었습니다. 예를 들어, 유명한 인공 지능 과학자이자 Lepton AI의 창립자인 Jia Yangqing은 관점 제기했습니다. LLM(대형 언어 모델)의 모델 크기입니다. CNN의 옛 길을 따르나요?

ImageNet 시대에 우리는 매개변수 크기가 급속히 커지는 것을 보았고 그 후 더 작고 더 효율적인 모델로 전환했습니다. 이것은 우리 중 많은 사람들이 잊어버렸을지도 모르는 LLM 시대 이전이었습니다.

대형 모델의 시작: AlexNet(2012)을 기준으로 시작한 후 약 3년간 모델 크기가 성장했습니다. VGGNet(2014)은 성능과 규모 측면에서 모두 강력한 모델이라고 할 수 있습니다.

모델 축소: GoogLeNet(2015)은 좋은 성능을 유지하면서 모델 크기를 GB 수준에서 MB 수준으로 100배 줄였습니다. SqueezeNet(2015)과 같은 유사한 작업과 다른 작업도 비슷한 추세를 따릅니다.

합리적인 균형: ResNet(2015), ResNeXT(2016) 등과 같은 이후 작업에서는 적당한 모델 크기를 유지했습니다. 우리는 실제로 더 많은 해시레이트 사용하게 되어 기쁘지만 매개변수가 효율적인 것도 마찬가지로 중요합니다.

온디바이스 학습? MobileNet(2017)은 차지하는 공간은 작지만 성능은 뛰어난 Google의 특히 흥미로운 노력입니다. 지난주에 내 친구가 "와, 우리는 장치 측면에 다양성을 내장한 탁월한 기능 때문에 여전히 MobileNet을 사용하고 있습니다"라고 말했습니다. 예, 임베디드 임베딩은 정말 유용합니다.

마지막으로 Jia Yangqing은 "LLM도 같은 추세를 따를 것인가?"라고 물었습니다.

Ghimire 등의 "효율적인 컨볼루셔널 신경망 및 하드웨어 가속에 대한 조사" 논문의 이미지.

Gemma 2 2B, GPT-3.5 터보를 뛰어넘다

Gemma 2 제품군에 모든 사람의 큰 기대를 받고 있는 Gemma 2 2B 모델이 추가되었습니다. Google은 고급 TPU v5e 하드웨어를 사용하여 2조 개의 거대한 토큰을 학습합니다.

이 경량 모델은 더 큰 모델에서 추출되었으며 매우 좋은 결과를 생성합니다. 차지하는 공간이 작기 때문에 온디바이스 애플리케이션에 특히 적합하며 모바일 AI 및 엣지 컴퓨팅에 상당한 영향을 미칠 수 있습니다.

실제로 Google의 Gemma 2 2B 모델은 Chatbot Arena Elo Score 순위에서 대형 AI 챗봇을 능가하여 더 작고 효율적인 언어 모델의 잠재력을 보여주었습니다. 아래 차트는 GPT-3.5 및 Llama 2와 같은 잘 알려진 모델에 비해 Gemma 2 2B의 뛰어난 성능을 보여주며 "더 클수록 좋다"는 개념에 도전합니다.

Gemma 2 2B는 다음을 제공합니다:

탁월한 성능: 동일한 규모에서 동급 최고의 성능을 제공하며 동일한 유형의 다른 오픈 소스 모델을 능가합니다.

유연하고 비용 효율적인 배포: 에지 기기 및 노트북부터 Vertex AI 및 Google Kubernetes Engine(GKE)과 같은 클라우드 배포에 이르기까지 다양한 하드웨어에서 효율적으로 실행됩니다. 속도를 더욱 높이기 위해 모델은 NVIDIA TensorRT-LLM 라이브러리를 사용하여 최적화되었으며 NVIDIA NIM으로 제공됩니다. 또한 Gemma 2 2B는 Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp 및 곧 출시될 MediaPipe와 원활하게 통합되어 개발을 단순화합니다.

오픈 소스 및 쉽게 액세스 가능: 연구 및 상업용 애플리케이션 모두에 사용할 수 있으며 크기가 충분히 작기 때문에 Google Colab의 T4 GPU 무료 계층에서도 실행할 수 있어 실험과 개발이 그 어느 때보다 쉬워졌습니다.

오늘부터 사용자는 Kaggle, Hugging Face 및 Vertex AI Model Garden에서 모델 가중치를 다운로드할 수 있습니다. 사용자는 Google AI Studio에서 해당 기능을 시험해 볼 수도 있습니다.

체중 주소 다운로드: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

Gemma 2 2B의 등장은 모델이 클수록 성능이 좋아진다는 인공지능 개발 분야의 주류 관점 도전합니다. Gemma 2 2B의 성공은 정교한 훈련 기술, 효율적인 아키텍처 및 고품질 데이터 세트가 원시 매개변수 수의 부족을 보완할 수 있음을 보여줍니다. 이러한 혁신은 현장에 광범위한 결과를 가져올 수 있으며, 잠재적으로 더 큰 모델을 놓고 경쟁하는 것에서 더 작고 더 효율적인 모델을 개선하는 것으로 초점을 전환할 수 있습니다.

Gemma 2 2B의 개발은 또한 모델 압축 및 증류 기술의 중요성이 커지고 있음을 강조합니다. 더 큰 모델의 지식을 더 작은 모델로 효율적으로 증류함으로써 연구자들은 성능 저하 없이 더 접근하기 쉬운 AI 도구를 만들 수 있습니다. 이 접근 방식은 계산 요구 사항을 줄일 뿐만 아니라 대규모 AI 모델 교육 및 실행이 환경에 미치는 영향에 대한 우려도 해결합니다.

ShieldGemma: 최첨단 보안 분류기

기술 보고서: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

ShieldGemma는 AI 모델 입력 및 출력에서 ​​유해한 콘텐츠를 감지하고 완화하여 개발자가 책임감 있게 모델을 배포할 수 있도록 설계된 고급 보안 분류자 세트입니다.

ShieldGemma는 다음과 같은 4가지 주요 위험 영역을 대상으로 특별히 설계되었습니다.

연설을 증오

괴롭힘

성적인 콘텐츠

위험한 콘텐츠

이러한 공개 분류자는 Responsible AI Toolkit의 기존 보안 분류자 제품군을 보완합니다.

ShieldGemma를 사용하면 사용자는 더 안전하고 더 나은 AI 애플리케이션을 만들 수 있습니다

SOTA 성능: 보안 분류자로서 ShieldGemma는 업계 최고의 수준에 도달했습니다.

다양한 크기로 제공: ShieldGemma는 다양한 요구에 맞는 다양한 모델을 제공합니다. 2B 모델은 온라인 분류 작업에 매우 적합한 반면, 9B 및 27B 버전은 대기 시간이 덜 중요한 오프라인 애플리케이션에 더 높은 성능을 제공합니다.

아래 표에 표시된 것처럼 ShieldGemma(SG) 모델(2B, 9B 및 27B)은 GPT-4를 포함한 모든 기본 모델보다 성능이 뛰어납니다.

Gemma Scope: 모델을 더욱 투명하게 만듭니다.

Gemma Scope는 AI 연구 커뮤니티가 더 쉽게 이해하고 더 안정적인 AI 시스템을 구축하는 방법을 탐색할 수 있도록 돕는 것을 목표로 합니다. 이는 연구자와 개발자에게 Gemma 2 모델의 의사결정 과정에 대한 전례 없는 투명성을 제공합니다. Gemma Scope는 SAE(Sparse AutoEncoder)를 사용하여 모델의 내부 작동을 확대하여 해석을 더 쉽게 만드는 강력한 현미경과 같습니다.

Gemma Scope 기술 보고서: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

SAE는 사용자가 Gemma 2에서 처리한 복잡한 정보를 구문 분석하고 분석하고 이해하기 쉬운 형식으로 확장하는 데 도움을 줍니다. 따라서 연구원은 Gemma 2가 패턴을 인식하고 정보를 처리하며 궁극적으로 예측하는 방법에 대한 귀중한 통찰력을 얻을 수 있습니다.

Gemma Scope가 획기적인 이유는 다음과 같습니다.

공개 SAE: Gemma 2 2B 및 9B의 모든 계층을 포괄하는 400개 이상의 무료 SAE;

대화형 데모: Neuronpedia에서 코드를 작성하지 않고도 SAE 기능을 탐색하고 모델 동작을 분석합니다.

사용하기 쉬운 저장소: SAE 및 Gemma 2 상호 작용을 위한 코드와 예제를 제공합니다.

참조 링크:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

이 기사는 WeChat 공개 계정 "Machine Heart" 에서 발췌되었으며 36Kr의 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트