Musk는 GPT-4o를 따라잡기 위해 Grok을 훈련시키기 위해 가장 큰 슈퍼컴퓨팅 센터인 100,000개의 H100을 구축하는 데 수십억 달러를 지출했습니다.

avatar
36氪
05-27
이 기사는 기계로 번역되었습니다
원문 표시

[소개] 최근 오랫동안 새로운 개발이 없었던 Musk는 큰 소식을 발표했습니다. 그의 인공 지능 스타트업 xAI가 Grok 2 이상 버전의 교육을 보장하기 위해 슈퍼컴퓨팅 센터 구축에 막대한 투자를 할 예정입니다. 이 "슈퍼컴퓨팅 공장"은 2025년 가을에 완공될 예정이며 현재 가장 큰 GPU 클러스터의 4배 규모가 될 것입니다.

얼마 전 오픈AI, 구글, 마이크로소프트 등이 잇달아 컨퍼런스를 열고 AI계 경쟁이 본격화됐다.

이렇게 활기 넘치는 시대에 어떻게 머스크가 빠질 수 있겠습니까?

얼마 전까지만 해도 테슬라와 스타링크로 바빴던 그는 최근 손을 떼기 시작한 것 같고, 호들갑 떨지 않고 블록버스터급 발표를 직접 내놨다. 가장 큰 슈퍼컴퓨팅 센터.

올해 3월 그의 xAI는 Grok 1.5의 최신 버전을 출시했습니다. 이후 Grok 2가 곧 출시될 것이라는 소문이 돌았지만 공식적인 소식은 없습니다.

해시레이트 부족해서일까요?

그렇습니다. 억만장자들은 충분한 칩을 구매하지 못할 수도 있습니다. 올해 4월 그는 고급 칩이 충분하지 않아 Grok 2 모델의 훈련 및 출시가 지연되었다고 개인적으로 밝혔습니다.

Grok 2 트레이닝에는 Hopper 아키텍처를 기반으로 하는 Nvidia H100 GPU 약 20,000개가 필요하며, Grok 3 모델 이상에는 H100 칩 100,000개가 필요하다고 덧붙였습니다.

Tesla의 1분기 재무 보고서에도 회사가 해시레이트 으로 인해 제한을 받고 있는 것으로 나타났습니다. 당시 Musk의 계획은 연말까지 85,000개의 H100 GPU를 배포하고 Sequoia Capital 및 기타 투자자로부터 조달한 60억 xAI를 사용하는 것이었습니다. 대부분의 달러는 칩에 사용됩니다.

H100의 가격은 현재 약 30,000달러입니다. 건설 비용과 기타 서버 장비를 제외하면 칩 가격만 28억 달러입니다.

Musk의 추정에 따르면 이 칩 보유량은 Grok 2를 훈련하기에 충분합니다.

하지만 아마도 한 달 동안 고민한 끝에 라오마는 이 단계가 충분히 크지도, 획기적인 진전도 아니라고 느꼈을 것입니다. 결국, xAI의 포지셔닝은 OpenAI, Google과 같은 강력한 라이벌과 정면으로 경쟁하는 것입니다. 미래에 모델을 교육하려면 해시레이트 으로 인해 체인을 잃을 수 없습니다.

따라서 그는 최근 xAI가 다음 버전의 Grok을 훈련하고 실행하려면 100,000개의 H100을 배포해야 한다고 공개적으로 밝혔습니다.

또한 xAI는 모든 칩을 직렬로 연결하여 머스크가 "컴퓨트의 기가팩토리"라고 부르는 거대한 컴퓨터에 연결할 계획입니다.

Ma는 이번 달 투자자들에게 2025년 가을까지 슈퍼컴퓨터를 가동하기를 희망하며 LLM 개발에 매우 ​​중요하기 때문에 "슈퍼컴퓨터를 제 시간에 맞춰 제공하는 데 개인적으로 책임을 지게 될 것"이라고 말했습니다.

이 슈퍼컴퓨터는 xAI와 Oracle이 공동으로 구축할 수 있습니다. 지난 몇 년 동안 xAI는 Oracle로부터 약 16,000개의 H100 칩이 포함된 서버를 임대해 왔으며 이러한 칩에 대한 최대 주문 소스가 되었습니다.

자체 해시레이트 개발하지 않으면 xAI는 향후 몇 년 내에 클라우드 서버에 100억 달러를 지출할 가능성이 크며 결국 "슈퍼컴퓨팅 공장"을 이용하는 것이 더 저렴할 것입니다.

현재 가장 큰 GPU 클러스터

완료되면 이 "슈퍼컴퓨팅 공장"은 현재 가장 큰 GPU 클러스터 크기의 최소 4배가 될 것입니다.

예를 들어, 지난 3월 Meta의 공식 웹사이트에서 공개한 데이터에 따르면 Llama 3 훈련을 위해 24,000개의 H100 GPU가 포함된 두 개의 클러스터를 시작한 것으로 나타났습니다.

Nvidia는 올해 하반기에 새로운 아키텍처인 Blackwell의 B100 GPU의 생산 및 납품을 시작할 것이라고 발표했지만 Musk의 현재 계획은 H100을 구매하는 것입니다.

대량으로 단종될 모델을 구입하는 대신 최신 모델의 칩을 사용해 보는 것은 어떨까요? 그 이유는 황 본인이 직접 설명했습니다. "오늘날의 AI 경쟁에서는 시간이 매우 중요합니다."

NVIDIA는 매년 새로운 세대의 제품을 업데이트할 예정이며, 다음 제품을 기다리고 싶다면 교육 시간과 선점자 이점을 잃게 됩니다.

이정표에 도달한 다음 회사는 획기적인 AI를 발표하고, 그 다음으로 가까운 회사는 이를 0.3%만 향상시킵니다. 당신은 어느 쪽을 선택하시겠습니까?

그렇기 때문에 기술을 선도하는 기업으로 남는 것이 중요합니다. 그래야 고객이 귀하를 기반으로 하고 귀하가 항상 앞서 있을 것이라는 신뢰를 갖게 될 것입니다. 여기서는 시간이 중요합니다.

이것이 바로 내 고객이 여전히 호퍼 시스템 구축에 열광하는 이유입니다. 타이밍이 전부입니다. 다음 이정표가 곧 다가옵니다.

그러나 모든 일이 순조롭게 진행되고 머스크의 '개인적 책임' 하에 '슈퍼컴퓨팅 공장'이 제 시간에 맞춰 인도된다고 해도 이 클러스터가 내년 가을까지 여전히 규모 우위를 점할지는 아직 알 수 없다.

저커버그는 올해 1월 인스타그램에 메타가 올해 말까지 35만 개의 H100을 추가로 배치할 것이라고 밝혔는데, 이는 기존 해시레이트 포함하면 총 60만 개의 H100에 해당하지만 단일 클러스터의 칩에 대해서는 언급하지 않았다. . 수량.

하지만 이 숫자는 5월 초 Llama 3가 출시되기 전에 거의 반년 만에 거의 두 배로 늘어났으며, Meta는 Nvidia에서 추가로 500,000개의 GPU를 구입하여 총 100만 개(소매가 30달러)에 이르렀다고 합니다. 10억.

한편, 마이크로소프트는 연말까지 180만 개의 GPU를 확보하는 것을 목표로 하고 있으며, OpenAI는 최신 AI 모델에 1,000만 개의 GPU를 사용하기를 희망하며 더욱 공격적입니다. 두 회사는 또한 수백만 개의 Nvidia GPU를 포함하는 1,000억 달러 규모의 슈퍼컴퓨터 개발을 논의하고 있습니다.

해시레이트 대결, 결국 누가 승리할 것인가?

아마도 엔비디아일 겁니다.

그리고 NVIDIA CFO Colette Kress는 OpenAI, Amazon, Google, xAI 등 Blackwell의 주력 칩에 대한 우선 고객 목록을 언급한 적이 있습니다.

양산을 앞둔 B100과 엔비디아가 앞으로 매년 업데이트할 칩은 거대 기술 기업의 슈퍼컴퓨팅 센터에 지속적으로 진입해 해시레이트 의 업그레이드와 반복을 완성할 예정이다.

칩이 부족하고 전기가 충분하지 않습니다.

머스크는 테슬라의 해시레이트 문제에 대해 언급하면서 지금까지 칩 부족이 AI 개발의 주요 제약이었지만 내년이나 2년 안에는 전원 공급이 매우 중요할 것이며 최대 규모의 칩으로 칩을 대체할 수도 있다고 덧붙였다. 제한 요인.

이번 새로운 '슈퍼컴퓨팅 공장'의 입지 선정을 포함해 가장 중요하게 고려해야 할 요소는 전원공급장치다. 100,000개의 GPU가 있는 데이터 센터에는 100MW의 전용 전력이 필요할 수 있습니다.

이러한 수준의 전력을 제공하기 위해 xAI의 본사 사무실이 위치한 샌프란시스코 베이 지역은 분명히 이상적인 선택이 아닙니다. 비용을 줄이기 위해 데이터 센터는 전기가 더 저렴하고 풍부한 외딴 지역에 건설되는 경우가 많습니다.

예를 들어, 1000억 달러 규모의 슈퍼컴퓨터를 계획하는 것 외에도 Microsoft와 OpenAI는 위스콘신에 대규모 데이터 센터를 건설하고 있으며, 건설 비용은 약 100억 달러에 달합니다. Amazon Cloud Services의 데이터 센터는 애리조나에 있습니다.

"슈퍼컴퓨팅 공장"이 건설될 가능성이 매우 높은 곳은 텍사스주 오스틴에 있는 Tesla 본사입니다.

지난해 테슬라가 발표한 도장(Dojo)이 이곳에 배치됐다. 이 슈퍼컴퓨터는 AI 자율주행 소프트웨어를 훈련시키는 데 도움이 되는 맞춤형 칩을 기반으로 하며, 외부 세계에 클라우드 서비스를 제공하는 데에도 사용할 수 있습니다.

첫 번째 Dojo는 10,000개의 GPU에서 실행되었으며 구축 비용은 약 3억 달러였습니다. 머스크는 지난 4월 테슬라가 자율주행 시스템 훈련에 사용되는 총 3만5000개의 GPU를 보유하고 있다고 밝혔다.

데이터 센터의 모델 훈련은 전력 소모가 매우 많은 프로세스입니다. GPT-3 훈련에는 1,287MWh의 전력이 소비되는 것으로 추산되며, 이는 미국 130가구의 연간 전력 소비량과 거의 같습니다.

머스크는 AI의 전력 문제를 알아차린 유일한 CEO가 아닙니다. Sam Altman 자신도 핵융합을 사용하여 AI 데이터 센터를 운영하는 데 더 친환경적이고 저렴한 방법을 제공하는 것을 목표로 하는 스타트업 Helion Energy에 3억 7,500만 달러를 투자했습니다.

머스크는 핵융합 기술에 투자하지 않고 있으며, AI 기업들이 곧 고전압 전류를 전력망에서 사용할 수 있는 전력으로 변환할 수 있는 강압 변압기를 놓고 경쟁하기 시작할 것이라고 믿습니다. ) 1V 아래로 떨어지는 것은 엄청난 하락입니다."

칩 다음으로 AI 산업에는 '트랜스포머용 트랜스포머'가 필요하다.

참고자료:

https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute?rc=epv9gi

https://www.inc.com/ben-sherry/elon-musk-touts-nvidia-dominance-predicts-a-giant-leap-in-ai-power.html

https://finance.yahoo.com/news/jensen-huang-elon-musk-openai-182851783.html?guccounter=1

이 기사는 WeChat 공개 계정 "Xin Zhiyuan"(ID: AI_era) , 편집자: Qiao Yang, so sleepy, 36 Krypton에서 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트