오늘 출근했을 때 외국 회사에 새로운 일자리가있는 것을 보았습니다.
Groq라는 회사는 챗봇 페이지를 시작했는데, ChatGPT보다 더 거칠어 보이며 페이지에 지침이 없으며 원래는 실제로 관심을 끌 수 없습니다.
아래 데모 영상을 보기 전까지는요.
이것이 AI가 콘텐츠를 "생성"하는 속도라고 상상하기 어렵고, 마치 답을 찾아서 복사하여 붙여 넣은 것처럼 보입니다.
실리콘에 사는 한 신사가 GPT에게 질문을 했고, 그는 자투리 시간에 몇 개의 위챗을 입력했습니다.
위의 동영상을 자세히 보면 다른 대형 모델 웹사이트에서는 일반적으로 표시되지 않는 매개 변수인 325.68 T/s가 있음을 알 수 있습니다. 이 매개 변수는 다른 대형 모델 웹사이트에서는 표시되지 않는 유일한 매개 변수이기 때문에 Groq 테스트의 핵심 요소이기도 합니다.
이 매개변수는 프로모션 페이지에서도 Groq에 의해 강조 표시되며, 특히 빅 모델이 초당 얼마나 많은 토큰을 계산할 수 있는지를 의미합니다.
빅 모델에서 토큰이 하는 일에 대해 간단히 설명합니다. 빅 모델이 학습, 추론 및 생성될 때 텍스트를 가장 작은 단위, 즉 토큰으로 잘라냅니다. 예를 들어 chatgpt에 질문을 하면 chatgpt는 먼저 전체 단어를 토큰으로 잘라낸 다음 이를 계산합니다. chatgpt가 대답하면 한 번에 모두 입력되는 것이 아니라 토큰 하나하나가 팝업으로 표시됩니다.
chatgpt가 텍스트를 어떻게 잘라내는지는 OpenAI의 단어 분할기 페이지를 참조하세요. 예를 들어 "황이 지뢰 찾기를 할 수 있는 4090 그래픽 카드를 보내주면 좋겠어요"라고 말하면 chatgpt가 이를 22개의 토큰으로 분할합니다.
https://platform.openai.com/tokenizer
ArtificialAnalysis.ai의 평가 데이터에 따르면, Groq에서 제공하는 Mixtral 8x7B 인터페이스는 초당 430개의 토큰 처리량이라는 새로운 대형 모델 처리량 기록을 세웠습니다.
물론 얼마나 빠른지 완전히 파악하려면 Groq과 비교해야 합니다. 깃허브에는 다양한 플랫폼에서 70B 대형 모델 실행 속도에 대한 테스트가 있습니다. 초당 토큰 생성이나 응답 속도 모두 Groq이 훨씬 앞선다는 것을 알 수 있습니다.
세계에서 유일한 무술은 빠르다는 말은 대형 모델에도 적용됩니다. 얼마 전 인터넷에서 chatgpt의 속도가 느려지는 것에 대한 논의가 있었습니다. 어떤 사람들은 OpenAI가 무료 사용자를 제한하고 있다고 말하지만, 실리콘 준에 대한 구체적인 내용은 명확하지 않지만 대형 모델 생성 속도가 실제로 사용자에게 고통스러운 점 이라는 것을 알 수 있습니다.
전자 상거래 회사가 사용자 경험을 개선하기 위해 AI 고객 서비스를 도입한다고 가정했을 때, 같은 말을 몇 초 후에 다시 10초 정도마다 반복한다면 사용자 경험은 크게 달라질 것입니다.
마찬가지로 AI 라이브 방송, AI 글쓰기 등이 있습니다. 대규모 모델을 적용할 때는 대규모 모델 생성 속도가 매우 중요할 수밖에 없습니다.
그러나 실제로 Groq은 질문 정확도가 정말 걱정스럽고 조금 더 복잡한 질문은 기본적으로 정답을 얻지 못하며 최근에 큰 어머니처럼 횡설수설하는 것처럼 보입니다.
그러나 Groq은 대형 모델을 판매하는 것이 아니라 AI 칩을 판매하고 있습니다.
간단히 말해, "우리 가족의 칩을 사용하면 모델이 콘텐츠를 매우 빠르게 생성할 수 있다 "는 점을 홍보하고 싶었던 것입니다.
심지어 젠슨 황이 직접 외치기도 했는데, 이 칩의 추론 속도는 엔비디아보다 10배나 빠릅니다!
Groq이 자체 개발한 칩을 LPU라고 합니다.
공식 웹사이트에 따르면 Groq은 제너레이티브 AI 솔루션 회사로, 시장에서 가장 빠른 언어 처리 가속기인 LPU 추론 엔진을 개발한 회사입니다.
이 엔진은 처음부터 지연 시간이 짧고 에너지 효율적이며 반복 가능한 추론 성능을 대규모로 구현할 수 있도록 설계되었습니다. 고객들은 대규모 언어 모델(LLM)과 기타 생성형 AI 애플리케이션을 10배 빠른 속도로 실행하기 위한 엔드투엔드 솔루션으로 LPU 추론 엔진을 사용합니다.
즉, LPU에서 실행되는 모든 모델의 속도가 향상됩니다.
Groq은 LPU를 홍보하기 위해 공식 웹사이트에 AI 거물인 Meta의 주커버그와 OpenAI의 알트먼을 초대하기도 했습니다.
공식 웹사이트에 따르면 LPU의 기술적 측면에서는 컴퓨팅 밀도와 메모리 대역폭이라는 두 가지 주요 LLM 병목 현상을 극복하는 것을 목표로 합니다.
LLM에 관한 한, LPU는 GPU와 CPU보다 더 높은 연산 능력을 가지고 있습니다. 따라서 각 단어를 계산하는 데 필요한 시간이 단축되어 텍스트 시퀀스를 더 빠르게 생성할 수 있습니다. 또한, 외부 메모리 병목 현상을 제거함으로써 LPU 추론 엔진은 GPU에 비해 LLM에서 훨씬 더 높은 성능을 제공할 수 있습니다.
트위터 사용자들에 따르면, LPU가 GPU보다 빠른 주된 이유는 사용하는 스토리지 기술과 아키텍처 설계 때문이라고 합니다.
LPU는 GPU에서 일반적으로 사용하는 HBM(고대역폭 메모리) 대신 SRAM(정적 랜덤 액세스 메모리)을 사용하며, SRAM은 HBM보다 약 20배 빠르게 액세스할 수 있어 LPU가 훨씬 빠르게 데이터를 액세스하고 처리할 수 있습니다. 또한 LPU가 사용하는 시간 명령 집합 컴퓨터 아키텍처는 메모리에 반복적으로 액세스할 필요성을 줄여 처리 효율성을 더욱 향상시킵니다.
이를 쉽게 설명하기 위해 시각적인 예를 들어보겠습니다:
LPU와 GPU를 두 명의 요리사에 비유하면, LPU는 필요한 모든 재료가 들어 있는 효율적인 도구 상자(SRAM)를 가지고 있어 멀리 가지 않고도 무엇이든 손에 넣을 수 있습니다. 반면 GPU는 모든 재료를 대형 창고(HBM)에 보관하고 있으며, 재료가 필요할 때마다 창고로 달려가 재료를 구해야 하므로 시간이 더 많이 걸립니다. 창고가 크고 많은 자재를 보관할 수 있지만(고대역폭), 오가는 시간 때문에 전체 공정 속도가 느려지는 것입니다.
SK하이닉스 입장에서는 HBM이 더 이상 잘 작동하지 않는다는 말이 나오면 불안하지 않을까요?
LPU의 기술을 잠깐 살펴본 결과, Groq의 개발팀은 결코 작은 팀이 아닙니다.
Groq은 갑자기 등장한 것이 아니라 구글의 그늘 뒤에서 설립되었습니다(최근 또 다른 화제의 인물인 구글과 함께).
Groq은 전직 Google 직원인 조나단 로스가 설립한 회사로 2016년 캘리포니아에 설립되었으며, 조나단 로스는 Google의 TPU 초기 팀의 일원이기도 합니다.
Google용 TPU는 기본적으로 대부분의 연산 요구 사항을 충족합니다. 오늘 구글이 발표한 가장 강력하고 다재다능한 AI 모델인 제미니는 TPU를 사용하여 학습되고 제공되는 것으로 알려졌습니다.
모델 자체로 돌아가서 일반적으로 산술 능력의 변화는 모델의 추론 속도에만 영향을 미치지만, 큰 모델은 계산량이 작지 않기 때문에 지속적으로 최적화되면서 소수점 숫자가 약간 바뀔 수 있습니다. 그렇다면 Groq의 LPU는 GPU에 비해 대규모 모델 생성의 품질에 영향을 미칠까요?
실리콘은 "엘론 머스크를 100단어로 소개하라"는 동일한 질문을 Groq의 Llama-2-70b와 POE의 Llama-2-70b에 던졌습니다.
두 플랫폼 모두 속도 면에서 거의 동일하며 결과는 약간 다르지만 기본적으로 매우 부드럽습니다.
현재 Groq은 API 액세스를 지원하며 Llama 2 70B, Llama 2 7B 및 Mixtral 8x7B SMoE의 3가지 모델을 제공합니다. Groq의 가격도 매우 저렴하며, Llama 2 70B 입력 및 출력 가격은 각각 0.7$/1000k 토큰과 0.8$/1000k 토큰입니다. 가격에 관해서는 Groq은 시장의 동등한 가격보다 낮을 것이라고 보장합니다.
지난 며칠 동안 소라가 인터넷을 휩쓸었지만 다른 회사들도 가만히 있지 않았습니다. Google은 1000K 컨텍스트 길이를 지원하는 Genimi pro 1.5를 출시하여 큰 모델의 너비를 많이 늘 렸습니다. 그리고 Groq은 대형 모델의 생성 속도를 10배나 향상시킨 LPU를 선보였습니다.
앞서 언급한 빅 모델의 연산 및 스케일 개선과 더불어 실리콘 기반의 준은 빅 모델의 지속적인 진화를 기대하고 있습니다.
참고 자료
[1] 10배의 NVIDIA GPU: 빅 모델 전용 칩이 하룻밤 사이에 성공을 거둔 Google TPU 스타트업 팀 | Machine Minds
[2]세계에서 가장 빠른 빅 언어 모델 추론 서비스인 Groq: 초당 500개 토큰에서 450억 개의 파라미터가 출력되는 Mixtral 8×7B 모델 측정 | DataLearner
[3] Groq 기술 혁신: 초당 500개의 토큰 생성 속도를 달성한 Mixtral 8x7B 모델 | thinkview
이 기사는 위챗 공개 번호 "New Silicon NewGeek"(ID: XinguiNewgeek), 작성자: 동 다올리, 편집자: 장 제이, 시각 디자인: 슈 루이, 36 Krypton에서 허가를 받아 공개되었습니다.

