구글, 정확도 손실 없이 AI 메모리 크기 축소…하지만 함정이 있다

이 기사는 기계로 번역되었습니다
원문 표시

구글 리서치는 수요일에 추론 메모리의 주요 병목 현상을 정확도 손실 없이 최소 6배 이상 줄이는 압축 알고리즘인 TurboQuant를 발표했습니다.

해당 논문은 ICLR 2026에서 발표될 예정이며, 온라인상의 반응은 즉각적이었다.

클라우드플레어 CEO 매튜 프린스는 이를 구글의 딥시크 사태와 같은 순간 이라고 불렀습니다. 마이크론, 웨스턴 디지털, 시게이트를 포함한 메모리 관련 주가는 같은 날 하락했습니다.

양자화 효율성은 그 자체로 큰 성과입니다. 하지만 "정확도 손실 제로"라는 말에는 맥락이 필요합니다.

TurboQuant는 KV 캐시를 목표로 삼습니다. KV 캐시는 언어 모델이 대화 중에 기억해야 할 모든 것을 저장하는 GPU 메모리 영역입니다.

컨텍스트 윈도우가 수백만 개의 토큰으로 커짐에 따라, 해당 캐시는 세션당 수백 기가바이트까지 급증합니다. 이것이 실제 병목 현상의 원인입니다. 컴퓨팅 성능이 아니라 순수 메모리 용량이 문제인 것입니다.

기존의 압축 방식은 숫자를 내림하여 캐시 크기를 줄이려고 합니다. 예를 들어 32 비트(Bit) 부동 소수점을 16비트, 8비트, 4 비트(Bit) 정수로 줄이는 식입니다. 이를 더 쉽게 이해하려면 4K 해상도의 이미지를 풀 HD, 720p 등으로 줄이는 과정을 생각해 보세요. 전체적으로 같은 이미지라는 것을 쉽게 알 수 있지만, 4K 해상도에는 더 많은 디테일이 담겨 있습니다.

문제는 모델이 오작동하지 않도록 압축된 데이터와 함께 추가적인 "양자화 상수"를 저장해야 한다는 점입니다. 이 상수는 값당 1~2 비츠(Bits) 추가하여 성능 향상 효과를 부분적으로 저해합니다.

TurboQuant는 그러한 오버헤드를 완전히 제거한다고 주장합니다.

이 과정은 두 가지 하위 알고리즘을 통해 수행됩니다. PolarQuant는 벡터에서 크기와 방향을 분리하고, QJL(양자화된 존슨-린덴스트라우스)은 남아 있는 미세한 잔여 오차를 단일 부호 비트(Bit)(양수 또는 음수)로 줄이고 저장된 상수는 0으로 만듭니다.

구글에 따르면, 그 결과는 트랜스포머 모델을 구동하는 어텐션 계산에 대한 수학적으로 편향되지 않은 추정치입니다.

Gemma와 Mistral을 사용한 벤치마크에서 TurboQuant는 4배 압축률에서도 완전한 정밀도의 성능을 보였으며, 최대 104,000개의 토큰으로 구성된 방대한 데이터에서 원하는 정보를 정확하게 추출하는 어려운 작업에서도 완벽한 정확도를 유지했습니다.

이러한 벤치마크가 중요한 이유에 대한 배경 설명을 드리자면, 품질 저하 없이 모델의 사용 가능한 컨텍스트를 확장하는 것은 LLM 배포에서 가장 어려운 문제 중 하나였습니다.

자, 이제 세부 사항을 살펴보겠습니다.

"정확도 손실 제로"는 추론 중 KV 캐시 압축에 적용되는 것이지 모델 가중치에 적용되는 것이 아닙니다. 가중치 압축은 완전히 다른, 더 어려운 문제입니다. TurboQuant는 가중치 압축에는 관여하지 않습니다.

이 기능은 세션 중간에 수행되는 주의력 계산을 저장하는 임시 메모리를 압축하는데, 이 데이터는 이론적으로 재구성할 수 있기 때문에 오류가 발생해도 비교적 안전합니다.

또한, 깔끔한 벤치마크와 수십억 건의 요청을 처리하는 실제 운영 시스템 사이에는 큰 차이가 있습니다. TurboQuant는 구글 자체의 제미니(Gemini) 스택을 대규모로 사용하는 것이 아니라 Gemma, Mistral, Llama와 같은 오픈 소스 모델을 사용하여 테스트되었습니다.

DeepSeek의 효율성 향상은 처음부터 심층적인 아키텍처 설계가 필요했던 것과는 달리, TurboQuant는 재학습이나 미세 조정이 필요 없으며 런타임 오버헤드도 거의 없다고 주장합니다. 이론적으로는 기존 추론 파이프라인에 바로 통합될 수 있습니다.

바로 그 부분이 메모리 하드웨어 업계를 불안하게 만든 점입니다. 왜냐하면 만약 이 기술이 실제 운영 환경에서 작동한다면, 모든 주요 AI 연구소는 이미 보유하고 있는 GPU를 사용하여 더욱 효율적인 시스템을 운영할 수 있게 되기 때문입니다.

해당 논문은 ICLR 2026에 제출될 예정입니다. 실제 생산에 투입되기 전까지 "손실 제로"라는 헤드라인은 연구실에만 머물러 있을 것입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
60
즐겨찾기에 추가
10
코멘트