Lao Huang은 단숨에 3세대 GPU를 해독하고 무어의 법칙을 깨뜨려 AI 제국을 건설했으며 Blackwell을 대량 생산하여 ChatGPT의 글로벌 전력 소비 문제를 해결했습니다.

avatar
36氪
06-03
이 기사는 기계로 번역되었습니다
원문 표시

방금 Lao Huang은 대량 생산된 Blackwell을 통해 8년 내에 1조 8천억 매개변수 GPT-4의 훈련 에너지 소비를 1/350로 줄일 ​​것입니다. NVIDIA의 놀라운 제품입니다. 반복, 즉석에서 무어의 법칙을 깨뜨린 블랙웰의 향후 3세대 로드맵도 단숨에 공개됐다.

바로 지금, 황이 블랙웰을 쥐고 세상에 선보이는 순간 관객들은 열광했다.

지금까지 세계에서 가장 큰 칩입니다!

당신 앞에 있는 제품에는 놀라운 기술이 구현되어 있습니다.

황의 말에 따르면, 이 컴퓨터는 "지금까지 세상에서 만들어진 컴퓨터 중 가장 복잡하고 성능이 뛰어난 컴퓨터"입니다.

8년 만에 1조 8천억 개의 매개변수를 갖춘 GPT-4의 훈련 에너지 소비는 1/350으로 직접 감소했으며 추론 에너지 소비도 1/45000으로 직접 감소했습니다.

Nvidia 제품의 반복 속도는 무어의 법칙을 완전히 무시했습니다.

네티즌들이 말했듯이 Lao Huang은 자신 만의 무어의 법칙을 가지고 있습니다.

Lao Huang은 하드웨어를 한 손에, CUDA를 한 손에 들고 "계산 인플레이션"을 자신있게 통과했으며, 가까운 미래에 모든 처리 집약적 애플리케이션이 가속화되고 모든 데이터 센터가 확실히 가속화될 것이라는 대담한 예측을 내놓았습니다.

블랙웰의 향후 3세대 로드맵도 공개됐다: 블랙웰 울트라(2025), 루빈(2026), 루빈 울트라(2027)

'더 많이 사면 더 많이 절약할 수 있다'는 황식 수학 공식도 다시 등장했다.

컴퓨팅의 새로운 시대가 시작됩니다

연설 시작 부분에서 Huang은 Omniverse 시뮬레이션 세계에서 시연을 먼저 공개했습니다.

그는 "엔비디아는 컴퓨터 그래픽 시뮬레이션과 인공지능의 교차점에 있다. 이것이 우리의 '영혼'이다"라고 말했다.

이 모든 것은 물리적 세계의 시뮬레이션이며, 이를 실현하는 데는 컴퓨터 산업을 재편할 가속 컴퓨팅과 인공 지능이라는 두 가지 기본 기술이 적용됩니다.

지금까지 컴퓨터 산업은 60년 이상의 역사를 갖고 있으며, 이제 새로운 컴퓨팅 시대가 시작되었습니다.

1964년 IBM의 시스템 360이 처음으로 CPU를 선보였고, 일반 컴퓨팅은 운영체제를 통해 하드웨어와 소프트웨어를 분리했다. 아키텍처 호환성, 하위 호환성 등 오늘날 우리가 알고 있는 모든 기술은 바로 이 시점에서 나온 것입니다.

1995년이 되어서야 PC 혁명이 시작되어 수천 가구에 컴퓨팅이 도입되고 더욱 민주화되었습니다. 2007년에는 "컴퓨터"를 주머니에 직접 넣고 클라우드 연결을 가능하게 하는 iPhone이 출시되었습니다.

지난 60년 동안 우리는 컴퓨팅 산업의 변혁을 촉진한 2~3개의 중요한 기술 노드를 목격했다는 것을 알 수 있습니다.

가속 컴퓨팅: 한편으로는 GPU, 다른 한편으로는 CUDA

그리고 이제 우리는 다시 한 번 역사를 목격하게 될 것입니다. 황은 "가장 기본적인 두 가지 일이 일어나고 있다"고 말했다.

첫 번째는 프로세서의 성능 확장 속도가 크게 느려지고 필요한 계산량과 처리해야 하는 데이터가 기하급수적으로 증가한다는 것입니다.

황의 말에 따르면 우리는 '계산된 인플레이션'을 경험하고 있다.

Nvidia는 지난 20년 동안 가속 컴퓨팅을 연구해 왔습니다. 예를 들어 CUDA의 등장으로 CPU 부하가 가속화되었습니다. 실제로 전용 GPU가 더 잘 작동합니다.

우리는 애플리케이션을 실행할 때 100초 또는 100시간 동안 실행되는 앱이 되기를 원하지 않습니다.

따라서 NVIDIA는 이기종 컴퓨팅을 개척하여 CPU와 GPU가 병렬로 실행될 수 있도록 하여 과거 100개의 시간 단위를 단 1개의 시간 단위로 가속화했습니다.

속도는 100배 증가한 반면 소비전력은 3배, 비용은 1.5배에 불과한 것을 확인할 수 있다.

엔비디아는 또한 5억 달러 규모의 GPU를 갖춘 10억 달러 규모의 데이터센터를 'AI 공장'으로 탈바꿈시켰습니다.

가속화된 컴퓨팅을 통해 전 세계 많은 기업은 클라우드에서 데이터를 처리하는 데 수억 달러를 절약할 수 있습니다. 이는 또한 Lao Huang의 "수학적 공식"을 확인시켜 줍니다. 즉, 더 많이 구매할수록 더 많이 절약할 수 있다는 것입니다.

NVIDIA는 GPU 외에도 하드웨어 작동을 가속화하기 위해 소프트웨어를 다시 작성하는 업계에서 달성하기 어려운 작업도 수행했습니다.

아래 그림과 같이 딥러닝 cuDNN, 물리 모듈러스, 통신 Aerial RAN, 유전자 서열 Parabricks, QC 시뮬레이션 cuQUANTUM, 데이터 처리 cuDF 등의 분야에 전용 CUDA 소프트웨어가 있습니다.

즉, CUDA가 없으면 OpenGL이 없는 컴퓨터 그래픽 처리, SQL이 없는 데이터 처리와 동일합니다.

이제 CUDA를 활용한 생태계는 전 세계로 확산되었습니다. 바로 지난 주, Google은 Google Cloud에 cuDF를 추가하고 세계에서 가장 인기 있는 데이터 과학 라이브러리인 Pandas를 가속화할 것이라고 발표했습니다.

이제 단 한 번의 클릭으로 CoLab에서 Pandas를 사용할 수 있습니다. 데이터 처리 속도만 봐도 믿을 수 없을 정도로 빠릅니다.

Lao Huang은 새로운 플랫폼을 구현하는 것은 '계란과 닭'의 딜레마이며 개발자와 사용자는 필수 불가결하다고 말했습니다.

그러나 20년의 개발 끝에 CUDA는 이러한 딜레마를 깨고 전 세계 수많은 분야의 500만 개발자와 사용자를 통해 선순환을 이루었습니다.

CUDA를 설치하고 더 많은 계산을 실행하는 사람이 많을수록 성능을 더 많이 향상하고 더 효율적이고 에너지를 절약하는 CUDA로 반복할 수 있습니다.

"AI Factory" 풀스택 재구성

2012년에는 신경망 AlexNet이 탄생하면서 처음으로 Nvidia와 AI가 연결되었습니다. 우리 모두는 AI 대부 Hinton과 Gao Tu가 두 개의 Nvidia GPU에서 AlexNet 교육을 완료했다는 것을 알고 있습니다.

수십 년 전에 발명된 알고리즘을 상상할 수 없는 속도로 확장하는 딥 러닝이 시작되는 곳입니다.

그러나 신경망 아키텍처가 지속적으로 확장되고 데이터 및 계산에 대한 "욕구"가 점점 더 커지면서 Nvidia는 모든 것을 재창조해야 합니다.

2012년 이후 NVIDIA는 Tensor Core를 변경하고 NvLink는 물론 TensorRT, Triton 추론 서버 등은 물론 DGX 슈퍼컴퓨터도 발명했습니다.

당시에는 NVIDIA가 무엇을 하는지 이해하는 사람이 없었고, 이에 대한 비용을 지불하려는 사람도 없었습니다.

그 결과 황 회장은 2016년 샌프란시스코에 위치한 '소규모 기업' 오픈AI(OpenAI)에 엔비디아 최초의 DGX 슈퍼컴퓨터를 직접 기증했다.

그 이후로 NVIDIA는 슈퍼컴퓨터에서 초대형 데이터 센터로 계속 확장해 왔습니다.

2017년 Transformer 아키텍처가 탄생할 때까지 일정 기간 동안 지속적으로 발생하는 패턴을 식별하고 학습하기 위해 LLM을 교육하려면 더 큰 데이터가 필요했습니다.

그 후 Nvidia는 더 큰 슈퍼컴퓨터를 만들었습니다. 2022년 11월, 수만 개의 NVIDIA GPU로 훈련된 ChatGPT가 탄생하여 인간처럼 상호 작용할 수 있습니다.

생성 AI가 세상에 등장한 것은 이번이 처음이다. 이미지, 음성, 텍스트, 비디오 또는 날씨 토큰이 될 수 있는 한 번에 하나의 토큰을 출력합니다. 이는 모두 생성에 관한 것입니다.

Huang은 "우리가 배울 수 있는 모든 것은 이제 생성될 수 있습니다. 이제 우리는 생성 AI의 새로운 시대에 들어섰습니다."라고 말했습니다.

원래 슈퍼컴퓨터로 등장한 컴퓨터는 데이터센터가 됐다. 토큰을 출력하고 'AI 공장'으로 변신할 수 있다.

그리고 이 'AI 공장'은 엄청난 가치를 지닌 것들을 만들어내고 생산하고 있다.

1890년대 후반 니콜라 테슬라(Nikola Tesla)가 AC 생성기를 발명했고, 이제 엔비디아는 토큰을 출력할 수 있는 AI 생성기를 만들고 있습니다.

NVIDIA가 세상에 가져온 것은 가속 컴퓨팅이 새로운 산업 혁명을 주도하고 있다는 것입니다.

인류는 처음으로 3조 달러 규모의 IT 산업에만 의존하면 100조 달러 규모의 산업에 직접 서비스를 제공할 수 있는 모든 것을 창출할 수 있다는 사실을 깨달았습니다.

전통적인 소프트웨어 공장에서 오늘날의 AI 공장으로의 전환은 CPU에서 GPU로, 검색에서 생성으로, 지침에서 대형 모델로, 도구에서 기술로의 업그레이드를 실현했습니다.

생성적 AI가 전체 스택의 재구성을 촉진하는 것을 볼 수 있습니다.

Blackwell GPU에서 슈퍼 "AI 공장"까지

다음으로, NVIDIA가 어떻게 지구상에서 가장 강력한 Blackwell 칩을 슈퍼 "AI 공장"으로 바꾸는지 살펴보겠습니다.

다음은 Blackwell GPU가 장착된 프로덕션급 마더보드입니다.

Lao Huang이 지적한 Grace CPU 입니다.

그리고 여기서 우리는 두 개의 Blackwell 칩이 서로 연결된 것을 명확하게 볼 수 있습니다.

8년 동안 각 세대의 Nvidia 칩의 플롭은 1,000배 증가했습니다.

동시에 무어의 법칙은 지난 8년 동안 점차 소멸된 것으로 보인다.

무어의 법칙이 최고의 순간과 비교해도 Blackwell의 해시레이트 향상은 엄청납니다.

이에 따른 직접적인 결과는 상당한 비용 절감입니다.

예를 들어, 1조 8천억 개의 매개변수와 8조 개의 토큰으로 GPT-4를 훈련하는 데 사용되는 에너지 소비는 1/350으로 직접적으로 줄어듭니다!

파스칼은 1,000기가와트시를 소비해야 하며, 이는 1,000기가와트의 데이터 센터가 필요하다는 것을 의미합니다. (1기가와트 = 1000메가와트)

그리고 그러한 데이터 센터가 실제로 존재한다면 GPT-4를 훈련하는 데 꼬박 한 달이 걸릴 것입니다.

100메가와트 데이터센터의 경우 약 1년이 소요됩니다.

이것이 바로 ChatGPT와 같은 LLM이 8년 전에는 존재할 수 없었던 이유입니다.

이제 블랙웰과 함께라면 과거 1,000GWh를 3GWh로 직접 줄일 수 있다.

블랙웰은 토큰을 추론하고 생성하기 위해 탄생했다고 할 수 있습니다. 토큰당 에너지를 직접적으로 45,000배 줄입니다.

과거에는 파스칼을 사용하여 1개의 토큰을 생성하는 데 필요한 소비량은 200와트 전구 2개를 2일 동안 켜는 것과 같았습니다. GPT-4가 약 3개의 토큰이 필요한 단어를 생성하도록 하세요. 오늘날 GPT-4와의 채팅 경험은 불가능합니다.

이제 우리는 각 토큰에 0.4줄만 사용할 수 있으며 아주 적은 에너지를 사용하여 놀라운 토큰을 생성할 수 있습니다.

탄생 배경에는 컴퓨팅 모델 규모의 기하급수적인 성장이 있다.

모든 기하급수적 성장은 새로운 단계에 들어갑니다.

DGX에서 대규모 AI 슈퍼컴퓨터로 확장하면 Transformer는 대규모 데이터 세트에 대해 교육을 받을 수 있습니다.

차세대 AI는 물리적 세계를 이해해야 합니다. 그러나 오늘날 대부분의 AI는 물리 법칙을 이해하지 못합니다. 한 가지 해결책은 AI가 영상 데이터를 학습하게 하는 것이고, 다른 하나는 데이터를 합성하는 것이다.

세 번째 방법은 컴퓨터가 서로 학습하도록 하는 것입니다! 본질적으로 AlphaGo와 동일한 원리입니다.

엄청난 컴퓨팅 수요가 다가오고 있는데, 이를 해결하는 방법은 무엇입니까? 현재 접근 방식은 더 큰 GPU가 필요하다는 것입니다.

그리고 Blackwell은 이를 위해 태어났습니다.

Blackwell에는 몇 가지 중요한 기술 혁신이 있습니다.

첫 번째 항목은 칩의 크기입니다.

NVIDIA는 현재 사용 가능한 가장 큰 칩 두 개를 10TB/s 링크로 연결한 다음 동일한 컴퓨팅 노드에 배치하고 Grace CPU에 연결했습니다.

훈련 중에는 추론 및 생성 시나리오 중에 빠른 체크포인트에 사용되며 상황별 메모리를 저장하는 데 사용할 수 있습니다.

더욱이 이 2세대 GPU는 보안 수준도 높아서 사용할 때 AI를 도난이나 변조로부터 보호해 달라고 서버에 요청할 수 있습니다.

게다가 Blackwell은 5세대 NVLink를 사용합니다.

더욱이, 신뢰할 수 있고 사용 가능한 1세대 엔진이며,

이 시스템을 사용하면 트랜지스터, 플립플롭, 온칩 메모리, 오프칩 메모리를 모두 테스트할 수 있어 칩의 오작동 여부를 현장에서 확인할 수 있습니다.

이를 바탕으로 NVIDIA는 100,000대의 GPU 슈퍼컴퓨터의 오류 발생 간격을 몇 분으로 단축했습니다.

따라서 슈퍼컴퓨팅을 더욱 안정적으로 만드는 기술을 개발하지 않으면 슈퍼컴퓨팅을 장기적으로 실행할 수 없으며 몇 달 동안 실행할 수 있는 모델을 훈련하는 것도 불가능합니다.

신뢰성을 높이면 모델 가동 시간이 늘어나며 이는 분명히 비용에 직접적인 영향을 미칩니다.

마지막으로 황은 압축해제 엔진의 데이터 처리 역시 엔비디아가 해야 할 가장 중요한 일 중 하나라고 말했다.

데이터 압축 엔진과 압축 해제 엔진을 추가하면 현재 속도보다 훨씬 빠른 20배 빠른 속도로 스토리지에서 데이터를 클레임 할 수 있다.

슈퍼 공냉식 DGX 및 새로운 수냉식 MGX

Blackwell은 큰 진전을 이루었지만 Huang에게는 충분히 크지 않았습니다.

NVIDIA는 칩을 만들 뿐만 아니라 최첨단 칩을 탑재한 서버도 만듭니다. Blackwell을 탑재한 DGX 슈퍼컴퓨터는 모든 측면에서 성능의 도약을 달성했습니다.

Blackwell 칩이 통합된 최신 DGX는 이전 세대 Hopper보다 10배 더 많은 에너지를 소비하지만 FLOPS 수준은 45배 증가합니다.

아래 공랭식 DGX Blackwell에는 내부에 8개의 GPU가 있습니다.

해당 라디에이터의 크기도 15kW에 달할 정도로 놀랍고, 완전 공냉식이다.

액체 냉각 시스템을 배포하고 싶다면 어떻게 해야 합니까? NVIDIA에는 새로운 모델 MGX도 있습니다.

단일 MGX에는 72개의 블랙웰 GPU가 동시에 통합되어 있으며 초당 전송 속도가 130TB인 최신 5세대 NVLink가 탑재되어 있습니다.

NVLink는 이러한 개별 GPU를 서로 연결하므로 72-GPU MGX를 얻습니다.

Huang은 칩을 소개한 후 NVIDIA가 개발한 NVLink 기술을 구체적으로 언급했는데, 이는 NVIDIA의 마더보드가 점점 더 커질 수 있는 중요한 이유이기도 합니다.

LLM에는 점점 더 많은 매개변수가 있고 점점 더 많은 메모리를 소비하므로 단일 GPU에 모델을 맞추는 것이 거의 불가능하며 클러스터를 구축해야 합니다. 그 중에서도 컴퓨팅 파워 못지않게 GPU 통신 기술이 중요하다.

NVIDIA의 NVLink는 세계에서 가장 진보된 GPU 상호 연결 기술이며, 데이터 전송 속도는 미친 수준이라고 할 수 있습니다!

이전 세대는 8개에 불과했지만 오늘날의 DGX에는 72개의 GPU가 있기 때문에 GPU 수가 9배 증가했습니다. 대역폭 양은 직접적으로 18배, AI FLops는 45배 증가했지만 전력은 10배, 즉 100kW 증가에 그쳤습니다.

아래의 NVLink 칩도 기적입니다.

사람들이 그 중요성을 깨닫는 이유는 10테라 매개변수 LLM을 실행할 수 있도록 다양한 GPU를 모두 연결하기 때문입니다.

500억 개의 트랜지스터, 74개의 포트, 포트당 400GB, 초당 7.2TB의 단면 대역폭, 이는 그 자체로 기적입니다.

더 중요한 것은 NVLink에는 축소를 달성할 수 있는 내부 수학 함수도 있다는 것입니다. 이는 칩에서의 딥러닝에 특히 중요합니다.

흥미롭게도 NVLink 기술은 GPU에 대한 우리의 상상력을 크게 넓혔습니다.

예를 들어, 전통적인 개념에서 GPU는 다음과 같아야 합니다.

하지만 NVLink를 사용하면 GPU도 이렇게 커질 수 있습니다.

72개의 GPU를 지원하는 뼈대는 NVLink의 5,000개 케이블로, 칩 컴퓨팅을 위한 전송에서 20kw의 전력 소비를 절약할 수 있습니다.

Lao Huang이 손에 쥐고 있는 것은 NVLink 백본입니다. Lao Huang의 원래 표현으로는 "전기적, 기계적 기적"입니다.

NVLink가 하는 일은 서로 다른 GPU 칩을 서로 연결하는 것뿐이므로 황은 "이것은 충분히 야심적이지 않다"고 다시 말했습니다.

슈퍼컴퓨팅센터에서 서로 다른 호스트를 연결하는 데 가장 앞선 기술은 '인피니밴드'다.

그러나 많은 데이터센터 인프라와 생태계는 과거에 사용했던 이더 기반으로 구축되어 있으며, 이를 철거하고 다시 시작하는 데 드는 비용이 너무 높습니다.

이에 엔비디아는 더 많은 데이터센터가 AI 시대에 성공적으로 진입할 수 있도록 돕기 위해 AI 슈퍼컴퓨터에 적합한 이더 스위치 시리즈를 개발했다.

네트워크 수준 RDMA, 혼잡 제어, 적응형 라우팅 및 소음 격리. NVIDIA는 이 네 가지 기술에서 최고의 위치를 ​​활용하여 이더 GPU 간 지점 간 통신에 적합한 네트워크로 전환합니다.

이는 수백만 개의 GPU 데이터센터 시대가 다가오고 있음을 의미하기도 합니다.

전 세계 2,800만 명의 개발자가 LLM을 즉시 배포합니다.

NVIDIA의 AI 공장에는 계산 추론을 가속화할 수 있는 새로운 유형의 소프트웨어인 NIM이 실행되고 있습니다.

Lao Huang은 "우리가 만드는 것은 컨테이너 속의 AI입니다."라고 말했습니다.

이 컨테이너에는 추론 서비스를 위한 Triton 추론 서버, 최적화된 AI 모델, 클라우드 네이티브 스택 등을 포함하여 대량 의 소프트웨어가 있습니다.

현장에서 Lao Huang은 완전한 모드 상호 운용성을 달성할 수 있는 올인원 AI 모델을 다시 한 번 시연했습니다. NIM을 사용하면 이 중 어느 것도 문제가 되지 않습니다.

애플리케이션에 생성 AI를 추가하는 간단하고 표준화된 방법을 제공하여 개발자 생산성을 크게 향상시킬 수 있습니다.

이제 전 세계 2,800만 명의 개발자가 NIM을 자신의 데이터 센터에 다운로드하여 호스팅하고 사용할 수 있습니다.

앞으로는 개발자가 몇 주가 아니라 몇 분 만에 쉽게 생성 AI 애플리케이션을 구축할 수 있습니다.

동시에 NIM은 가속화된 인프라에서 최대 3배 더 많은 토큰을 생성할 수 있는 Meta Llama 3-8B도 지원합니다.

이러한 방식으로 기업은 동일한 컴퓨팅 리소스를 사용하여 더 많은 응답을 생성할 수 있습니다.

디지털 휴먼, 에이전트, 디지털 트윈 등 NIM을 기반으로 하는 다양한 애플리케이션도 등장할 것입니다.

Lao Huang은 "NVIDIA NIM은 다양한 플랫폼에 통합되어 있으며 개발자는 어디에서나 액세스하여 실행할 수 있습니다. 이는 기술 산업이 생성 AI를 실현할 수 있도록 돕고 있습니다."라고 말했습니다.

에이전트 팀 구성, 1조 달러 시장

그리고 지능형 에이전트는 미래에 가장 중요한 애플리케이션입니다.

Lao Huang은 거의 모든 산업에 고객 서비스 상담원이 필요하며 시장 전망이 수조 달러에 달한다고 말했습니다.

NIM 컨테이너 위에서 대부분의 에이전트는 작업을 추론하고 명확하게 하며 여러 하위 작업으로 분해하는 역할을 담당한다는 것을 알 수 있습니다. 다른 사람들은 정보 검색, 검색, 심지어 도구 사용까지 담당합니다.

모든 에이전트는 팀을 구성합니다.

미래에는 모든 회사가 대량 NIM 에이전트를 연결하여 팀을 구성하여 불가능한 작업을 완료하게 될 것입니다.

GPT-4o 본체, Lao Huang이 만들었습니다.

인간-컴퓨터 상호 작용 측면에서 Lao Huang과 Sam Altman은 서로를 생각했다고 할 수 있습니다.

그는 텍스트나 음성 안내를 사용하여 AI에 지시를 내릴 수 있지만 많은 애플리케이션에서는 여전히 더 자연스럽고 인간과 유사한 상호 작용 방법이 필요하다고 말했습니다.

이는 Lao Huang의 비전 중 하나인 디지털 사람들을 가리킵니다. 그들은 오늘날의 LLM보다 더 매력적이고 공감적일 수 있습니다.

GPT-4o는 비교할 수 없을 정도로 인간과 유사한 상호 작용을 달성하지만 부족한 것은 "몸"입니다.

하지만 이번에는 Lao Huang이 OpenAI가 이에 대해 생각하도록 도왔습니다.

미래에는 브랜드 홍보대사가 반드시 "실제 사람"일 필요는 없지만 AI가 완전한 능력을 발휘하게 될 것입니다.

고객 서비스부터 광고, 게임 및 기타 산업에 이르기까지 디지털 사람들이 가져올 가능성은 무한할 것입니다.

Gen AI와 연결된 CG 기술은 사실적인 인간의 얼굴도 실시간으로 렌더링할 수 있다.

전 세계 100개 이상의 지역에서 지연 시간이 짧은 디지털 휴먼 프로세싱.

이것이 바로 NVIDIA ACE가 제공하는 마법입니다. NVIDIA ACE는 실물과 같은 디지털 인간을 만들기 위한 해당 AI 도구를 제공할 수 있습니다.

이제 NVIDIA는 1억 대의 RTX AI 개인용 컴퓨터와 노트북에 ACE PC NIM 마이크로서비스를 배포할 계획입니다.

여기에는 NVIDIA의 첫 번째 소규모 언어 모델인 Nemotron-3 4.5B가 포함되어 있습니다. Nemotron-3 4.5B는 장치에서 실행되도록 설계되었으며 클라우드 LLM과 유사한 정밀도와 정확성을 가지고 있습니다.

또한 ACE의 새로운 디지털 휴먼 AI 제품군에는 오디오 트랙을 기반으로 신체 제스처를 생성하는 NVIDIA Audio2Gesture도 포함되어 있으며 곧 출시될 예정입니다.

황 교수는 "디지털 휴먼은 다양한 산업에 혁명을 일으킬 것이다. ACE가 제공하는 멀티모달 LLM과 뉴로그래픽스의 혁신은 우리를 의도 중심 컴퓨팅의 미래에 더 가까이 다가가게 해준다. 컴퓨터와의 상호작용은 인간과의 상호작용만큼 자연스러워질 것"이라고 말했다.

차세대 칩 루빈 미리보기

Hopper 및 Blackwell 시리즈의 출시는 Nvidia가 CPU, GPU 칩, NVLink의 GPU 통신 기술, NIC 및 스위치로 구성된 서버 네트워크를 포함하는 완전한 AI 슈퍼컴퓨팅 기술 스택을 점진적으로 구축했음을 나타냅니다.

원한다면 전체 데이터 센터를 Nvidia 기술로 구동할 수 있습니다.

이것은 충분히 크고 풀스택입니다. 그러나 Lao Huang은 GenAI의 업데이트 속도를 따라가려면 반복 속도를 가속화해야 한다고 말했습니다.

엔비디아는 최근 GPU 반복 속도를 2년에 한 번에서 1년에 한 번으로 조정하고 모든 기술의 경계를 최대한 빨리 확장하겠다고 발표했습니다.

오늘 연설에서 Huang은 다시 한번 공식적으로 GPU 연간 업데이트를 발표했습니다. 그러나 그는 후회할지도 모른다며 즉시 갑옷을 한 겹 더 추가했다.

그럼에도 불구하고 우리는 Nvidia가 곧 Blackwell Ultra를 출시하고 내년에 차세대 Rubin 시리즈를 출시할 것이라는 사실을 알고 있습니다.

쌍둥이 지구에서 구현된 AI 로봇까지

칩과 슈퍼컴퓨팅 서버 외에도 Huang은 아무도 생각하지 못했던 프로젝트인 디지털 트윈 지구 "Earth-2"도 발표했습니다.

이것은 아마도 세계에서 가장 야심찬 프로젝트일 것입니다.

그리고 Lao Huang의 말투에 따르면 Earth-2는 수년 동안 발전해 왔으며 올해 이루어진 주요 혁신으로 인해 이제 그것을 자랑스러워 할 때라고 느꼈습니다.

지구 전체의 디지털 트윈을 구축하는 이유는 무엇입니까? 사회적 상호작용과 상호작용이 온라인 플랫폼으로 옮겨가는 샤오자(Xiao Zha)의 메타버스(Metaverse)처럼 될까요?

아니요, 황의 비전은 더 야심적입니다.

그는 Earth-2 시뮬레이션이 지구 전체의 미래를 예측하여 태풍의 착륙 지점을 예측하는 등 기후 변화와 다양한 극한 기후에 더 잘 대처할 수 있기를 바랍니다.

Earth-2는 생성 AI 모델 CorrDiff를 결합하고 WRF 수치 시뮬레이션을 기반으로 훈련되어 12배 더 높은 해상도의 날씨 모델을 생성하여 범위를 25km에서 2km로 늘릴 수 있습니다.

해상도가 더 높을 뿐만 아니라 실제 시뮬레이션보다 1,000배 빠르게 실행되고 에너지 효율성이 3,000배 더 높아 서버에서 지속적으로 실행되고 실시간 예측이 가능합니다.

또한 Earth-2의 다음 단계는 예측 정확도를 2km에서 수십 미터로 향상하는 것입니다. 도시의 인프라를 고려하여 언제 거리에 강풍이 불지까지 예측할 수 있습니다.

더욱이 NVIDIA는 지구뿐만 아니라 물리적 세계 전체를 디지털 방식으로 결합하기를 원합니다.

빠르게 발전하는 AI 시대에 대해 황 교수는 차세대 AI, 즉 물리적 AI, 즉 구체화된 AI를 과감하게 예측했습니다.

인간과 물리적 세계를 이해하기 위해서는 초고도의 인지 능력이 필요할 뿐만 아니라 다양한 실제 작업을 완료할 수 있는 최고의 이동성도 필요합니다.

사이버펑크의 미래를 상상해 보세요. 로봇 떼가 함께 일하고 인간처럼 소통하고 협력하며 공장에서 더 많은 로봇을 만드는 것입니다.

그리고 그것은 단지 로봇이 아닙니다. 움직이는 모든 물체는 자율적입니다!

다중 모드 AI를 기반으로 세상을 학습 및 인식하고, 인간의 지시를 이해하며, 계획, 탐색 및 이동 기술을 발전시켜 다양하고 복잡한 작업을 완료할 수 있습니다.

그렇다면 이러한 로봇을 어떻게 훈련시킬 수 있을까요? 현실 세계에서 만연하게 놔두면 LLM 교육보다 비용이 훨씬 높아집니다.

이때 디지털 트윈 세계가 등장합니다.

LLM이 RLHF를 통해 가치를 정렬할 수 있는 것처럼 로봇도 시행착오를 계속하고, 학습하고, 인간 행동을 모방하고, 궁극적으로 물리적 법칙을 따르는 디지털 트윈 세계에서 일반 지능을 달성할 수 있습니다.

Nvidia의 Omniverse는 Gen AI 모델, 물리적 시뮬레이션 및 동적 실시간 렌더링 기술을 통합하여 "로봇 체육관"이 되는 디지털 트윈을 구축하는 플랫폼으로 사용될 수 있습니다.

풀스택 기업을 지향하는 엔비디아는 운영체제에만 만족하지 않는다. 또한 모델 훈련을 위한 슈퍼컴퓨터와 모델 실행을 위한 Jetson Thor 및 Orin도 제공할 예정입니다.

다양한 애플리케이션 시나리오의 로봇 시스템에 적응하기 위해 NVIDIA의 Omniverse는 점진적으로 Warehouse 생태계로 확장될 것입니다.

이 생태계에는 애플리케이션에 맞는 SDK 및 API부터 엣지 AI 컴퓨팅 실행을 위한 인터페이스, 가장 낮은 수준의 맞춤형 칩에 이르기까지 모든 것이 포함됩니다.

풀스택 제품 측면에서 NVIDIA는 자체적인 "패밀리 버킷"이 되기를 원하며 다른 사람들은 갈 곳이 없게 놔두기를 원합니다.

AI 로봇 시대를 더욱 실감나게 구현하기 위해 시연 마지막에는 황과 같은 키의 로봇 9대가 함께 등장했다.

Huang이 말했듯이 "이것은 미래가 아닙니다. 이 모든 일이 지금 일어나고 있습니다."

이 기사는 WeChat 공개 계정 "Xin Zhiyuan"(ID: AI_era)에서 가져온 것입니다. 저자: Xinzhiyuan, 36 Krypton은 게시 권한을 받았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
3
즐겨찾기에 추가
1
코멘트