AMD MI300이 NVIDIA H100을 능가하나요? GPT-4의 구동 성능이 25%를 넘으며 AI 칩 결전이 시작된다.

avatar
36氪
11-06
이 기사는 기계로 번역되었습니다
원문 표시

[소개] 다가오는 AI 칩 결전을 앞두고 많은 칩 스타트업들이 Nvidia의 독점을 단번에 무너뜨리기를 바라며 열심히 노력하고 있습니다. 그리고 AMD의 MI300은 32K 컨텍스트 창이 있는 GPT-4 모델을 배포할 때 실제로 H100보다 더 나은 성능을 발휘합니까?

AI칩 결전이 다가온다!

AI 하드웨어 개발자 스타트업의 미래는 어떻게 될까요?

Tenstorrent CEO David Bennett는 우리 업계에서 대부분의 스타트업의 최종 결과는 파산이라고 솔직하게 말했습니다.

어떻게 살아남는지? 그는 스타트업이 유연성을 유지하고 좁은 사용 사례에만 국한되는 것을 피해야 한다고 제안했습니다.

여기서 Bennett은 틈새 시장을 언급하는 것이 아니라 SiMa.ai에서 Cerebras까지 수십 개의 회사로 구성된 광범위한 그룹을 언급하고 있습니다. 그들은 함께 시장 선두주자인 Nvidia를 상대하기 위해 벤처 캐피탈에서 수십억 달러를 모금했습니다.

베넷은 이 사실을 잘 알고 있습니다. 그는 10년 넘게 AMD에서 영업 업무를 맡아왔습니다.

그의 현재 고용주인 Tenstorrent의 CEO는 하드웨어 전설인 Jim Keller입니다. 그는 iPhone 4 및 iPad 2를 구동하는 Apple의 A4 및 A5 프로세서를 개발했으며 2016년부터 2018년까지 Tesla 자율주행차의 하드웨어 작업을 담당했습니다.

Fidelity Ventures 및 Hyundai Motor를 포함한 투자자로부터 3억 달러 이상을 모금한 Tenstorrent는 Bennett의 조언을 따르고 있습니다. 칩부터 클라우드 컴퓨팅 및 그 이상까지 모든 것을 제공합니다.

Bennett은 오늘날의 칩 스타트업이 일반적으로 "AI 전용 하드웨어 제작"과 "현재 인기 모델에 의존" 사이를 맴돌고 있다고 말했습니다.

엔비디아의 단점: 처음부터 칩을 만드는 것이 어렵다

Nvidia의 AI 칩 GPU 이야기는 실제로 오늘날의 칩 스타트업에 이점을 제공합니다.

그래픽 처리 장치는 원래 컴퓨터 그래픽을 구동했지만 여러 계산을 병렬로 수행할 수 있는 능력으로 인해 AI 애플리케이션에서 주목을 받았습니다.

그러나 이 사고는 NVIDIA에도 불리한 점을 가져왔습니다. 이제 NVIDIA가 기존 GPU 사업에 영향을 주지 않고 칩을 처음부터 제조하는 것은 어렵고, 이는 신흥 스타트업에게 기회를 제공하여 AI용으로 특별히 제작된 새로운 하드웨어를 만드는 것입니다.

예를 들어, Tenstorrent 엔지니어는 중복 정보를 제거할 수 있는 미래의 희소 신경망을 위해 Grayskull 칩을 설계했습니다.

그럼에도 불구하고 Bennett은 대규모 언어 모델용 칩 구축에 초점을 맞춘 스타트업이 Transformer 아키텍처에 너무 밀접하게 묶여 있다고 믿습니다.

이 아키텍처에서 Transformer 기반 모델은 기본적으로 가장 가능성이 높은 다음 단어를 예측하므로 추론보다는 확률을 기반으로 답변을 생성한다는 비판을 받아왔습니다.

이는 이러한 모델 아키텍처가 현재의 AI 붐에서 살아남지 못할 수도 있음을 의미합니다.

결국 급속한 발전으로 인해 오늘날 LLM의 수명은 상대적으로 짧습니다. 어제 뜨거웠던 모델이 1~2주 안에 사라질 수도 있습니다.

하드웨어 회사의 또 다른 위험 영역은 추론용으로 특별히 칩을 만드는 것입니다.

이와 관련한 대표적인 것이 내년 상반기 전용 추론칩을 출시할 예정인 칩 개발사 디매트릭스(d-Matrix)다.

언뜻 보면 이 전략은 좋은 것 같습니다. 생성적 AI 애플리케이션 사용자는 이제 자체 모델을 처음부터 구축하는 대신 기존 독점 또는 오픈 소스 모델을 점점 더 많이 활용하게 될 것입니다.

이 때문에 많은 사람들은 모델 훈련보다는 모델 추론에 더 많은 돈을 투자해야 한다고 생각합니다.

이것이 비즈니스 관점에서는 현명한 조치일 수 있지만, Bennett은 추론에만 너무 집중하면 하드웨어 개발자가 더 대중적인 다른 사용 사례를 제공하지 못하게 될 것이라고 믿습니다.

예를 들어, 모델을 실행하는 데 필요한 정밀도가 낮은 계산의 경우 순수 추론 칩이면 충분합니다.

그러나 개발자가 대형 모델을 미세 조정하려면 더 높은 정밀도의 계산을 처리할 수 있는 칩이 필요할 것입니다.

GPU와 CPU를 하나로 묶은 최첨단 칩

다가오는 AI 칩 아마겟돈에서 살아남으려면 칩 개발자는 칩 아키텍처를 바꿔야 합니다.

오늘날 대부분의 칩은 GPU와 CPU를 분리합니다. 전자는 여러 계산을 동시에 수행할 수 있는 반면, 후자는 보다 일반적인 지침을 실행하고 광범위한 시스템 작업을 관리하는 역할을 합니다.

그러나 점점 더 많은 최첨단 칩(예: Nvidia의 Grace Hopper 슈퍼 칩 및 AMD의 곧 출시될 MI300A)이 GPU와 CPU를 통합합니다.

이 레이아웃을 사용하면 CPU가 데이터를 더 빠르게 준비하고 GPU에 로드할 수 있으므로 모델 훈련 속도가 빨라집니다.

게다가 엔비디아의 시장 지배력을 무너뜨리려는 하드웨어 스타트업 역시 가장 큰 장애물 중 하나인 소프트웨어 우위에 직면하게 된다.

기계 학습 애플리케이션을 작성하는 데 사용되는 Nvidia의 Cuda 소프트웨어는 자체 칩에서만 실행될 수 있습니다. 그리고 이는 실제로 개발자를 Nvidia GPU에 고정시킵니다.

AMD MI300은 GPT-4 업데이트 6을 실행합니다.

엔비디아의 지배력이 흔들리기 그렇게 어려운가?

Semianalytic 기자 Dylan Patel과 Myron Xie는 최근 AMD의 MI300이 비용 성능 측면에서 Nvidia의 H100보다 훨씬 뛰어날 것이라는 기사를 발표했습니다!

그들은 차세대 MI300의 출시로 AMD가 곧 LLM 추론 분야에서 Nvidia와 Google의 유일한 경쟁자가 될 것이라고 말했습니다.

반면 Groq, SambaNova, Intel, Amazon, Microsoft 및 기타 회사는 여전히 경쟁할 수 없습니다.

또한 AMD는 CUDA 기반 Nvidia의 해자에 대응하기 위해 자체 RoCM 소프트웨어, PyTorch 생태계 및 OpenAI의 Triton에 막대한 투자를 해왔습니다.

Databricks, AI21, Lamini, Moreph 등의 기업이 추론/훈련에 AMD GPU를 사용하기 시작하면서 AMD 자체 생태계는 점점 더 완벽해지고 있습니다.

업계 관계자에 따르면 더 큰 비디오 메모리를 갖춘 MI300은 32K 컨텍스트 창이 있는 GPT-4 모델을 배포할 때 더 나은 성능을 발휘합니다.

구체적으로 H100에 비해 MI300의 성능 이점은 컨텍스트 길이와 힌트 길이/쿼리당 출력되는 토큰 수에 따라 20%~25% 사이입니다.

저렴한 가격과 함께 MI300은 비용 성능 측면에서 Nvidia의 H100 또는 심지어 H200보다 훨씬 뛰어납니다.

메이저 메이커 잇따라 주문이 들어오고 있습니다

현재 Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon 및 기타 회사가 AMD로부터 약 205,000개의 MI300 장치를 주문했습니다.

이 중 120,000개는 Microsoft 전용, 25,000개는 Meta, 12,000개는 Oracle, 8,000개는 Google, 5,000개는 Amazon, 35,000개는 기타 기업용입니다.

그리고 엄청난 물량으로 인해 마이크로소프트의 MI300 구매가격은 다른 고객들보다 훨씬 저렴할 것으로 예상된다.

MI300이 내년에 AMD에 가져올 매출을 계산하려면 AMD가 얼마나 많은 공급을 보장할 수 있는지, 그리고 주요 고객이 얼마나 주문할지라는 두 가지 관점에서 분석해야 합니다.

공급 측면에서 볼 때 MI300의 생산 능력은 연중 점진적으로 증가하겠지만, Nvidia B100은 2분기에 출하를 시작하고 3분기에는 보다 비용 효율적인 공랭식 버전 출시로 크게 증가할 예정이므로, 가까운 시일 내에 이런 일은 일어나지 않을 것이며, 이는 AMD의 4분기 출하량에 큰 영향을 미칠 것입니다.

동시에 NVIDIA, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al 등 HBM 생산량, CoWoS 생산량, 메모리 제조업체의 패키징 생산량, CoWoS를 사용하여 생산되는 각 가속기의 상황도 고려할 필요가 있습니다. 칩, Amazon/Al 칩, Amazon/Marvell, Microsoft/GUC 등

그럼에도 업계에서는 여전히 4분기 MI300X 출하량이 11만대에 이를 수 있을 것으로 보고 있다.

고객 측에서는 Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect 및 Amazon이 주요 주문 소스이지만 HPC 유형 애플리케이션용 일부 MI300A를 포함하여 공급망의 다른 부분에서도 일부 주문이 있습니다.

이익 측면에서 Nvidia는 가격 인하 조짐은 없지만 가격은 그대로 유지하면서 HBM 용량/대역폭만 늘렸습니다. Nvidia의 이윤율이 80%가 넘는 것과 비교하면, AMD의 MI300 이윤율은 50%를 거의 넘지 않습니다.

AMD CEO Su Zifeng은 회사의 AI 분야 급속한 발전과 클라우드 컴퓨팅 고객의 구매 약속을 기반으로 데이터 센터 GPU 매출이 4분기에 4억 달러에 도달하고 2024년에는 20억 달러를 초과할 것으로 예상된다고 밝혔습니다.

이러한 성장으로 인해 MI300은 AMD 역사상 가장 빠른 제품으로 매출 10억 달러를 달성하게 될 것입니다.

이런 점에서 업계에서는 MI300X의 매출이 35억 달러에 달할 것으로 예상하고 있어 더욱 낙관적이다.

LLM 훈련 및 추론 분야에서 AMD의 현재 시장 점유율이 0.1% 미만인 것으로 판단할 때, 데이터 센터 분야에서 AMD의 시장 점유율은 계속해서 꾸준히 증가할 것입니다.

참고자료:

https://www.theinformation.com/articles/an-ai-chip-armageddon-is-coming-biden-punts-on-open-source-llms?rc=epv9gi

https://www.semianology.com/p/amd-mi300-ramp-gpt-4-performance

이 기사는 WeChat 공개 계정 "Xin Zhiyuan"(ID: AI_era) , 편집자: Hao Kong Aeneas 및 36 Krypton에서 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트