구글은 개발자들이 시스템이 문제 해결에 소비하는 처리 능력을 제한할 수 있는 제미니(Gemini) 2.5 플래시 모델을 위한 AI 추론 제어 메커니즘을 도입했습니다.
4월 17일에 출시된 이 "사고 예산" 기능은 점점 커지는 산업 과제에 대응합니다: 고급 AI 모델들이 종종 간단한 쿼리를 과도하게 분석하여 불필요한 계산 자원을 소비하고 운영 및 환경 비용을 높입니다.
혁명적이지는 않지만, 이 개발은 상업용 AI 소프트웨어에서 추론 능력이 표준화됨에 따라 나타난 효율성 문제를 해결하는 실용적인 단계를 나타냅니다.
새로운 메커니즘은 응답을 생성하기 전에 처리 자원을 정밀하게 조정할 수 있게 하여, 조직이 AI 배포의 재정적, 환경적 영향을 관리하는 방식을 잠재적으로 변화시킬 수 있습니다.
"모델이 과도하게 생각합니다," 제미니의 제품 관리 이사 툴시 도시는 인정합니다. "간단한 프롬프트의 경우, 모델은 필요 이상으로 많이 생각합니다."
이 인정은 고급 추론 모델이 직면한 도전을 드러냅니다 - 호두를 깨는 데 산업용 기계를 사용하는 것과 같습니다.
추론 능력으로의 전환은 의도하지 않은 결과를 만들어냈습니다. 기존의 대규모 언어 모델이 주로 훈련 데이터의 패턴을 일치시켰던 반면, 새로운 버전은 논리적으로 단계별로 문제를 해결하려고 시도합니다. 이 접근 방식이 복잡한 작업에 대해 더 나은 결과를 산출하지만, 간단한 쿼리를 처리할 때 상당한 비효율성을 초래합니다.
비용과 성능의 균형
통제되지 않은 AI 추론의 재정적 영향은 상당합니다. 구글의 기술 문서에 따르면, 전체 추론이 활성화되면 출력 생성이 표준 처리보다 약 6배 더 비쌉니다. 비용 승수는 세밀한 제어에 대한 강력한 인센티브를 만듭니다.
허깅 페이스의 엔지니어 나단 하비브는 이 문제가 산업 전반에 만연해 있다고 설명합니다. "더 스마트한 AI를 과시하려는 열풍 속에서, 기업들은 못이 없는 곳에서도 망치처럼 추론 모델을 사용하고 있습니다"라고 그는 MIT 테크놀로지 리뷰에 설명했습니다.
이 낭비는 단순한 이론이 아닙니다. 하비브는 유기화학 문제를 해결하려던 선도적인 추론 모델이 수백 번 "잠깐, 하지만..."을 반복하며 재귀적 루프에 갇혀 본질적으로 계산적 붕괴를 겪고 처리 자원을 소비했음을 보여주었습니다.
딥마인드에서 제미니 모델을 평가하는 케이트 올세프스카는 구글의 시스템도 때때로 유사한 문제를 겪으며, 컴퓨팅 파워를 소모하면서 응답 품질을 개선하지 못하는 루프에 갇힌다고 확인했습니다.
세분화된 제어 메커니즘
구글의 AI 추론 제어는 개발자들에게 정밀한 수준의 제어를 제공합니다. 시스템은 0(최소 추론)부터 24,576 토큰의 "사고 예산"까지 유연한 스펙트럼을 제공하며, 이는 모델의 내부 처리를 나타내는 계산 단위입니다. 이러한 세분화된 접근 방식은 특정 사용 사례에 기반한 맞춤형 배포를 허용합니다.
딥마인드의 수석 연구 과학자 잭 래는 최적의 추론 수준을 정의하는 것이 여전히 어렵다고 말합니다: "지금 어떤 작업에 완벽한 사고 수준을 그리는 것은 정말 어렵습니다."
개발 철학의 변화
AI 추론 제어의 도입은 인공지능이 진화하는 방식의 변화를 잠재적으로 시사합니다. 2019년 이후 기업들은 더 많은 매개변수와 훈련 데이터를 가진 더 큰 모델을 구축하여 개선을 추구해왔습니다. 구글의 접근 방식은 규모가 아닌 효율성에 초점을 맞추는 대안적 경로를 제시합니다.
"확장 법칙이 대체되고 있습니다"라고 하비브는 말하며, 향후 발전은 지속적인 모델 크기 확장이 아니라 추론 프로세스 최적화에서 나올 수 있음을 나타냅니다.
환경적 영향 또한 중요합니다. 추론 모델이 확산됨에 따라 에너지 소비도 비례적으로 증가합니다. 연구에 따르면 추론 - AI 응답 생성 - 이 이제 기술의 탄소 발자국에 더 많이 기여하고 있습니다. 구글의 추론 제어 메커니즘은 이러한 우려스러운 추세를 완화할 수 있는 잠재적 요인을 제공합니다.
(번역은 계속됩니다. 전체 텍스트를 번역하겠습니다.)




