미국 반도체 투자 전문가: 현재로서는 구글의 TPU가 우위를 점하고 있지만, 장기적으로는 엔비디아 GPU가 더 강력한 경쟁력을 갖고 있다.

avatar
ABMedia
12-10
이 기사는 기계로 번역되었습니다
원문 표시

최근 인터뷰에서 미국의 반도체 투자 전문가인 개빈 베이커는 NVIDIA GPU(호퍼, 블랙웰)와 Google TPU의 차이점을 기술, 성능, 비용, 시너지 효과 등 다양한 관점에서 심층 분석했습니다. 그는 Google TPU가 단기적으로는 우위를 점하고 있지만, 장기적으로는 NVIDIA의 GPU 생태계가 여전히 강력한 독점적 지위를 유지할 것이라고 지적했습니다.

GPU는 풀스택 플랫폼인 반면, TPU는 단일 지점 ASIC입니다.

베이커는 AI 가속기 둘러싼 의견 차이가 근본적인 설계 철학에서 비롯된다고 지적했습니다. NVIDIA의 GPU는 Hopper와 Blackwell부터 곧 출시될 Rubin에 이르기까지 풀 스택 플랫폼을 지향합니다. GPU 자체, NVLink 양방향 인터커넥트 기술, 네트워크 카드, 스위치부터 CUDA 및 TensorRT와 같은 소프트웨어 계층까지 NVIDIA가 모든 것을 처리합니다. 기업은 GPU를 구매하는 순간 학습 및 추론에 필요한 완벽한 환경을 확보하게 되므로 네트워크를 구축하거나 소프트웨어를 다시 작성할 필요가 없습니다.

반면, 구글 TPU(v4, v5e, v6, v7)는 기본적으로 ASIC(Application-Specific Integrated Circuit)으로, 특정 AI 연산을 위해 특별히 설계된 가속기 입니다. 구글은 프런트엔드 로직 설계를 담당하지만, 백엔드는 브로드컴이 제조하고 TSMC가 생산을 외주합니다. 구글은 스위치, 네트워크 카드, 소프트웨어 생태계 등 TPU의 다른 필수 구성 요소도 통합하기 때문에 공급망 협력이 GPU보다 훨씬 더 복잡합니다.

전반적으로 GPU의 장점은 단일 칩의 성능에 있는 것이 아니라 전체 플랫폼과 생태계의 완성도에 있습니다. 이는 또한 두 기술 간의 경쟁 격차가 점점 더 뚜렷해지는 출발점이기도 합니다.

Blackwell은 상당한 성능 향상을 제공하여 TPU v6/v7에 더 큰 부담을 주고 있습니다.

베이커는 GPU와 TPU 간의 성능 격차가 2024~2025년에 더욱 두드러질 것이라고 지적합니다. 블랙웰이 GB200에서 GB300으로 전환된 것은 아키텍처적으로 상당한 도약을 의미하며, 단일 랙 전력 소비량이 130kW에 달하는 액체 냉각 설계로 바뀌었고 전체적인 복잡성도 전례 없이 높아졌습니다. 대량 배포는 이제 겨우 3~4개월 정도 진행되었으며, 아직 초기 단계에 있습니다.

차세대 GB300은 GB200 랙에 직접 장착할 수 있어 기업의 확장 속도를 높여줍니다. 데이터센터 구축 속도가 가장 빠른 xAI는 블랙웰의 성능을 최대한 활용하는 최초의 고객 중 하나로 꼽힙니다. 베이커는 다음과 같은 비유를 사용합니다.

"호퍼가 제2차 세계 대전 말 가장 진보된 항공기로 묘사된다면, TPU v6/v7은 두 세대 후의 F-4 팬텀과 같습니다. 반면 블랙웰은 F-35와 같이 완전히 다른 수준의 성능을 자랑합니다."

이는 TPU v6/v7과 블랙웰이 서로 다른 하드웨어 수준에 있음을 나타내며, 구글 제미니 3가 현재 블랙웰급 기기가 아닌 TPU v6/v7을 사용하고 있음을 보여줍니다. 구글은 TPU v6/v7을 사용하여 제미니 3와 같은 고품질 모델을 학습시킬 수 있지만, 블랙웰 시리즈가 널리 출시됨에 따라 두 아키텍처 간의 성능 차이가 더욱 분명해질 것입니다.

TPU는 한때 저가형 칩의 왕좌를 차지했지만, GB300이 그 자리를 바꿀 것입니다.

베이커는 과거 TPU의 가장 중요한 강점은 세계 최고 수준의 교육 비용이었다고 언급했습니다. 그리고 구글은 실제로 이러한 강점을 활용하여 경쟁사들의 자금 조달 및 운영 여지를 압박했습니다.

하지만 베이커는 GB300이 대규모로 배포되면 시장에서 가장 저렴한 학습 플랫폼은 GB300을 사용하는 기업, 특히 수직 통합 역량과 자체 데이터 센터를 보유한 XAI와 같은 팀으로 이동할 것이라고 지적합니다. OpenAI 또한 향후 해시레이트 병목 현상을 극복하고 자체 하드웨어 역량을 개발할 수 있다면 GB300 진영에 합류할 수 있을 것입니다.

이는 구글이 비용 우위를 잃게 되면 기존의 저가 전략을 유지하기 어려워질 것임을 의미합니다. 또한 학습 비용에 대한 통제권도 TPU에서 GB300으로 재분배될 것입니다.

GPU 확장은 더 빠른 협업을 가능하게 하는 반면, TPU 통합은 더 큰 부담을 수반합니다.

대규모 모델의 발전 속도가 빠를수록 대규모 GPU 협업에 대한 수요가 증가하며, 이는 최근 몇 년 동안 GPU가 TPU를 크게 능가하게 된 주요 요인 중 하나입니다. 베이커는 NVLink를 통해 GPU 클러스터가 협업 규모를 20만~30만 개의 GPU까지 확장할 수 있어 대규모 모델이 더 많은 학습 예산을 활용할 수 있다고 지적합니다. XAI가 빠르게 구축한 대규모 데이터 센터는 NVIDIA가 최적화된 솔루션을 더 일찍 출시하도록 만들었고, 이는 전체 GPU 생태계의 발전을 가속화했습니다.

반면 TPU는 구글이 스위치와 네트워크를 직접 통합하고 브로드컴과 TSMC의 공급망을 조율해야 하기 때문에 GPU보다 더 복잡합니다.

GPU는 1년 주기로 세대가 출시되는 추세인 반면, TPU는 공급망에 따라 출시 주기가 제한됩니다.

베이커는 ASIC과의 경쟁 압력에 대응하여 엔비디아와 AMD 모두 GPU 업데이트 주기를 가속화하고 있으며, GPU가 "1년에 한 세대"씩 출시하는 방향으로 나아가고 있다고 언급했습니다. 이는 모델 크기 확장이 사실상 중단 없이 가능해지는 대규모 모델 시대에 매우 유리한 속도입니다.

TPU의 반복 개발 속도는 제한적입니다. v1에서 v4, 그리고 v6까지 각 세대가 완성되기까지 수년이 걸렸습니다. 향후 v8과 v9는 구글, 브로드컴, TSMC 등 주요 기업들이 공급망에 관여하기 때문에 개발 및 반복 개발 속도가 GPU보다 훨씬 느려 더 큰 어려움에 직면할 것입니다. 따라서 향후 3년 동안 반복 개발 속도 측면에서 GPU의 우위가 더욱 두드러질 것입니다.

(엔비디아 GPU, 구글 TPU, 아마존 AWS 자체 개발 AI 칩의 기술적 차이점 및 향후 시장 동향)

세 거대 기업은 분명히 엔비디아와 손을 잡고 있는 반면, 구글은 TPU를 고수하고 있다.

현재 세계 4대 모델 제공업체는 OpenAI, Gemini(구글), Anthropic, xAI이지만, 전반적인 추세는 NVIDIA 쪽으로 점점 더 기울고 있습니다.

베이커는 앤스로픽이 엔비디아와 50억 달러 규모의 장기 구매 계약을 체결하며 공식적으로 GPU 진영에 합류했다고 밝혔습니다. xAI는 블랙웰의 최대 초기 고객으로, GPU 데이터 센터 구축에 대량 투자를 해왔습니다. 반면 오픈AI는 외부 공급업체로부터 해시레이트 임대해야 하는 과도한 비용 압박에 직면해 있으며, 스타게이트 프로젝트를 통해 오랫동안 지속되어 온 해시레이트 병목 현상을 해결하고자 합니다.

네 회사 중 구글만이 TPU를 대량 사용하고 있지만, TPU의 비용 경쟁력 저하와 느린 반복 개발 속도로 인해 압박을 받고 있습니다. 전반적으로 해시레이트 구도는 OpenAI, Anthropic, XAI가 GPU 진영에 집중되어 있는 반면, 구글은 TPU 진영에서 상대적으로 고립된 "3대 1" 구도입니다.

(엔비디아의 재무 보고서에 따르면 매출이 호조를 보이고 있습니다. AI 데이터 센터 업무 호황을 누리고 있으며, 젠슨 황 CEO는 블랙웰이 매각될 것이라고 밝혔습니다.)

"미국 반도체 투자 전문가: 구글 TPU가 일시적으로 우위를 점했지만, NVIDIA GPU가 장기적으로 더 큰 이점을 갖고 있다" 라는 제목의 이 기사는 연쇄 뉴스 플랫폼인 ABMedia 에 처음 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트