NVIDIA GTC 컨퍼런스 황런쉰 연설을 이해하기 위한 기사: 해시레이트 결코 잠들지 않는다고 믿으세요

이 기사는 기계로 번역되었습니다
원문 표시

저자: 수양, 하오보양; 출처: 텐센트 테크놀로지

AI 시대의 '삽 판매원'인 황런쉰과 그의 엔비디아는 해시레이트 결코 잠들지 않는다고 늘 믿고 있습니다.

그림

황런쉰은 GTC 연설에서 추론으로 인해 해시레이트 요구 사항이 100배 증가했다고 말했습니다.

오늘의 GTC 컨퍼런스에서 황런쉰은 새로운 Blackwell Ultra GPU와 이를 기반으로 추론 및 에이전트를 위한 서버 SKU, 그리고 Blackwell 아키텍처를 기반으로 한 RTX 제품군을 공개했습니다. 이 모든 것은 해시레이트 과 관련이 있지만, 그보다 더 중요한 것은 무한한 해시레이트 합리적이고 효과적으로 소비하는 방법입니다.

황런쉰의 눈에는 AGI 로 가는 길에는 해시레이트 필요하고, 구현된 지능형 로봇에는 해시레이트 필요하며, 옴니버스와 월드 모델을 구축하려면 무한한 해시레이트 공급이 필요합니다. 인간이 가상의 "평행 우주"를 구축하는 데 궁극적으로 얼마나 많은 해시레이트 필요한지에 대한 질문에 NVIDIA는 과거보다 100배 더 많은 컴퓨팅 능력이 필요하다고 답했습니다.

황런쉰은 자신의 관점 뒷받침하기 위해 GTC 사이트에서 일련의 데이터를 보여주었습니다. 2024년에 미국 내 상위 4대 클라우드 제조업체는 총 130만 개의 Hopper 아키텍처 칩을 구매할 것입니다. 2025년까지 이 수치는 360만 개의 Blackwell GPU로 급증할 것으로 예상됩니다.

Tencent Technology가 수집한 NVIDIA GTC 2025 컨퍼런스의 핵심 내용은 다음과 같습니다.

블랙웰 패밀리 버킷 출시

1) 매년 나오는 '핵폭탄' 블랙웰 울트라가 치약을 짜고 있다

NVIDIA는 작년 GTC에서 Blackwell 아키텍처를 출시하고 GB200 칩을 출시했습니다. 올해는 공식 명칭이 약간 변경되었습니다. 이전에 소문이 돌았던 GB300 대신, 이 제품은 Blakwell Ultra라는 이름으로 직접 명명되었습니다.

하지만 하드웨어 관점에서 보면 새로운 HBM 메모리는 작년의 메모리를 기반으로 대체되었습니다. 간단히 말해서, Blackwell Ultra = Blackwell 대용량 메모리 버전입니다.

블랙웰 울트라는 TSMC N4P(5nm) 공정 2개, 블랙웰 아키텍처 칩 + 그레이스 CPU 패키지로 구성되며, 더욱 발전된 12단 적층 HBM3e 메모리를 탑재했습니다. 비디오 메모리가 288GB로 증가했습니다. 이전 세대와 마찬가지로 5세대 NVLink를 지원하고 1.8TB/s의 칩 간 상호 연결 대역폭을 달성할 수 있습니다.

그림

세대별 NVLink 성능 매개변수

스토리지 업그레이드를 기반으로, Blackwell GPU의 FP4 정밀 해시레이트 15PetaFLOPS에 도달할 수 있으며, Attention Acceleration 메커니즘을 기반으로 한 추론 속도는 Hopper 아키텍처 칩보다 2.5배 빠릅니다.

2) Blackwell Ultra NVL72: AI 추론을 위한 전용 캐비닛

그림

블랙웰 울트라 NVL72 공식 사진

GB200 NVL72와 마찬가지로 NVIDIA도 올해 비슷한 제품인 Blackwell Ultra NVL72 캐비닛을 출시했습니다. 이 캐비닛은 총 18개의 컴퓨팅 트레이로 구성되며, 각 트레이에는 Blackwell Ultra GPU 4개와 Grace CPU 2개가 포함되어 총 72개의 Blackwell Ultra GPU와 Grace CPU 36개가 있으며, 비디오 메모리는 20TB이고 총 대역폭은 576TB/s입니다. 또한 NVLink 스위치 트레이 9개(NVLink 스위치 칩 18개)와 노드 간 NVLink 대역폭은 130TB/s입니다.

캐비닛에는 72개의 CX-8 네트워크 카드가 내장되어 있어 14.4TB/s 대역폭을 제공합니다. Quantum-X800 InfiniBand 및 Spectrum-X 800G 이더 카드는 지연 시간과 지터를 줄이고 대규모 AI 클러스터를 지원할 수 있습니다. 또한, 랙에는 18개의 BlueField-3 DPU가 통합되어 있어 다중 테넌트 네트워킹, 보안 및 데이터 가속이 향상되었습니다.

엔비디아는 이 제품이 "AI 추론 시대를 위해" 특별히 맞춤 제작되었다고 밝혔습니다. 응용 시나리오에는 추론 AI, 에이전트 및 물리적 AI(로봇 및 지능형 주행 훈련을 위한 데이터 시뮬레이션 및 합성)가 포함됩니다. 이전 세대 제품인 GB200 NVL72와 비교했을 때 AI 성능이 1.5배 향상되었습니다. 동일한 Hopper 아키텍처를 적용한 DGX 캐비닛 제품과 비교했을 때, 데이터 센터의 수익을 50배까지 늘릴 수 있는 기회를 제공할 수 있습니다.

공식 정보에 따르면, 6,710억 개의 매개변수를 가진 DeepSeek-R1의 추론은 H100 제품을 기준으로 초당 100개의 토큰을 달성할 수 있고, Blackwell Ultra NVL72 솔루션을 사용하면 초당 1,000개의 토큰을 달성할 수 있습니다.

동일한 추론 작업을 시간으로 환산하면 H100은 1.5분이 걸리는 반면, Blackwell Ultra NVL72는 15초 만에 완료할 수 있습니다.

그림

Blackwell Ultra NVL72 및 GB200 NVL72 하드웨어 매개변수

NVIDIA가 제공한 정보에 따르면, Blackwell NVL72 관련 제품은 2025년 하반기에 상장 예정입니다. 주요 고객으로는 서버 제조업체, 클라우드 팩토리, 해시레이트 임대 서비스 제공업체 등이 있습니다.

  • 서버 제조업체

    Cisco/Dell/HPE/Lenovo/Supermicro 등 15개 제조업체

  • 클라우드 팩토리

    AWS/Google Cloud/Azure/Oracle Cloud 및 기타 주류 플랫폼

  • 해시레이트 임대 서비스 제공업체

    CoreWeave/Lambda/Yotta 등

3) 진짜 '핵폭탄' GPU 루빈 칩 사전 공지

NVIDIA의 로드맵에 따르면, Blackwell Ultra가 GTC2025의 주요 행사장이 될 예정입니다.

그러나 황런쉰은 이 기회에 2026년에 상장 루빈 아키텍처 기반의 차세대 GPU와 더욱 강력한 캐비닛인 베라 루빈 NVL144를 미리 선보였습니다. 이 캐비닛은 72개의 베라 CPU와 144개의 루빈 GPU로 구성되어 있으며, 288GB의 비디오 메모리와 13TB/s의 비디오 메모리 대역폭을 갖춘 HBM4 칩을 사용하고 6세대 NVLink와 CX9 네트워크 카드를 탑재했습니다.

이 제품의 성능은 어떤가요? FP4 정밀도의 추론 해시레이트 3.6ExaFLOPS에 달하고, FP8 정밀도의 학습 컴퓨팅 성능은 1.2ExaF1OPS에 달합니다. 이는 Blackwell Ultra NVL72 성능의 3.3배입니다.

충분하지 않다고 생각하면, 그것은 중요하지 않습니다. 2027년에는 더욱 강력한 Rubin Ultra NVL576 캐비닛이 출시될 예정이며, FP4 정밀 추론 및 FP8 정밀 학습 해시레이트 각각 15ExaFLOPS와 5ExaFLOPS로, Blackwell Ultra NVL72보다 14배 더 뛰어납니다.

그림

NVIDIA에서 제공하는 Rubin Ultra NVL144 및 Rubin Ultra NVL576의 매개변수

4) DGX Super POD "슈퍼컴퓨팅 팩토리"의 블랙웰 울트라 버전

이 단계에서는 Blackwell Ultra NVL72로는 충족할 수 없는 요구 사항과 초대형 AI 클러스터를 구축할 필요가 없는 고객을 위해 NVIDIA는 Blackwell Ultra를 기반으로 한 플러그 앤 플레이 DGX Super POD AI 슈퍼컴퓨팅 팩토리라는 솔루션을 제공합니다.

DGX Super POD는 플러그 앤 플레이 AI 슈퍼컴퓨팅 팩토리로서 생성 AI, AI 에이전트, 물리적 시뮬레이션과 같은 AI 시나리오를 위해 주로 설계되었으며, 사전 학습, 사후 학습부터 프로덕션 환경까지 전체 프로세스 해시레이트 확장 요구 사항을 충족합니다. 최초의 서비스 제공업체인 Equinix는 액체 냉각/공기 냉각 인프라 지원을 제공합니다.

그림

Blackwell Ultra로 제작된 DGX SuperPod

Blackwell Ultra를 기반으로 맞춤 제작된 DGX Super POD는 두 가지 버전으로 나뉩니다.

  • DGX GB300(Grace CPU ×1 + Blackwell Ultra GPU ×2)이 내장된 DGX SuperPOD는 총 288개의 Grace CPU와 576개의 Blackwell Ultra GPU로 구성되어 300TB의 고속 메모리와 FP4 정밀도에서 11.5 ExaFLOPS의 해시레이트 제공합니다.

  • DGX B300이 내장된 DGX SuperPOD. 이 버전에는 Grace CPU 칩이 포함되지 않았고, 추가 확장 공간이 있으며, 공랭 시스템을 사용합니다. 주요 적용 시나리오는 일반적인 기업 수준의 데이터 센터입니다.

5) DGX 스파크와 DGX 스테이션

올해 1월, 엔비디아는 CES에서 3,000달러 가격의 개념적 AI PC 제품인 Project DIGITS를 공개했는데, 이제 공식 이름은 DGX Spark입니다.

제품 매개변수 측면에서는 GB10 칩이 탑재되어 있으며, FP4 정밀도에서 1페타플롭스의 해시레이트, 128GB LPDDR5X 메모리 내장, CX-7 네트워크 카드, 4TB NVMe 스토리지, Linux 기반으로 맞춤화된 DGX OS 운영 체제 실행, Pytorch와 같은 지원 프레임, NVIDIA에서 제공하는 일부 기본 AI 소프트웨어 개발 도구가 사전 설치되어 있으며, 2,000억 개의 매개변수 모델을 실행할 수 있습니다. 전체 기계의 크기는 Mac mini와 비슷합니다. 두 대의 DGX Spark를 상호 연결하여 4,000억 개 이상의 매개변수가 있는 모델을 실행할 수 있습니다.

AI PC라고는 하지만, 본질적으로는 여전히 슈퍼컴퓨팅 범주에 속하므로 RTX 등 소비자용 제품이 아닌 DGX 제품 시리즈에 속합니다.

하지만 일부 사람들은 이 제품에 대해 불평을 했습니다. FP4의 광고된 성능은 사용성이 낮습니다. FP16 정밀도로 변환하면 RTX 5070이나 250달러짜리 Arc B580과만 경쟁할 수 있으므로 비용 대비 성능이 매우 낮습니다.

그림

DGX Spark 컴퓨터 및 DGX Station 워크스테이션

NVIDIA는 공식적으로 DGX Spark라는 이름을 붙인 것 외에도 Blackwell Ultra를 기반으로 한 AI 워크스테이션도 출시했습니다. 이 워크스테이션은 Grace CPU와 Blackwell Ultra GPU가 내장되어 있으며, 784GB의 통합 메모리와 CX-8 네트워크 카드를 결합하여 20PetaFlops의 AI 해시레이트 제공합니다(공식적으로는 태그 되지 않았지만 이론적으로는 FP4 정확도도 있음).

6) RTX, AI PC를 휩쓸고 데이터 센터에도 진출 노려

앞서 소개한 제품 SKU는 모두 Grace CPU와 Blackwell Ultra GPU를 기반으로 하며, 모두 엔터프라이즈급 제품입니다. 많은 사람들이 RTX 4090과 같은 제품을 AI 추론에 활용하는 데 관심을 가지고 있다는 점을 고려하여 NVIDIA는 이번 GTC에서 Blackwell과 RTX 시리즈의 통합을 더욱 강화했으며, 노트북, 데스크톱, 심지어 데이터 센터와 같은 시나리오를 포괄하여 GDDR7 메모리가 내장된 AI PC 관련 GPU를 대량 출시했습니다.

  • 데스크탑 GPU: 워크스테이션용 RTX PRO 6000 Blackwell, 워크스테이션용 RTX PRO 6000 Blackwell Max-Q, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell 및 RTX PRO 4000 Blackwell

  • 노트북 GPU: RTX PRO 5000 Blackwell, RTX PRO 4000 Blackwell, RTX PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell 및 RTX PRO 500 Blackwell

  • 데이터 센터 GPU: NVIDIA RTX PRO 6000 Blackwell Server Edition

그림

엔터프라이즈 컴퓨팅을 위한 NVIDIA의 AI "패밀리 버킷"

위에 나열한 것은 워크스테이션부터 데이터 센터 클러스터까지, Blackwell Ultra 칩을 기반으로 다양한 시나리오에 맞게 맞춤화된 SKU 중 일부에 불과합니다. 엔비디아 자체에서는 이를 "블랙웰 패밀리"라고 부르고, 중국어 번역은 "블랙웰 패밀리 버킷"이 매우 적합합니다.

NVIDIA Photonics: 팀원들의 어깨 위에 선 CPO 시스템

공동 패키징 광전자 모듈(CPO)의 개념은 스위치 칩과 광 모듈 함께 패키징하는 것으로, 광 신호를 전기 신호로 변환하고 광 신호의 전송 성능을 최대한 활용할 수 있습니다.

이전에도 업계에서는 엔비디아의 CPO 네트워크 스위치 제품에 대해 논의했지만, 아직 출시되지 않았습니다. 황런쉰도 그 자리에서 설명을 했습니다. 데이터 센터에서 광섬유 연결을 대량 사용함에 따라 광 네트워크의 전력 소비는 컴퓨팅 리소스의 10%에 해당합니다. 광 연결 비용은 컴퓨팅 노드의 Scale-Out 네트워크와 AI 성능 밀도 향상에 직접적인 영향을 미칩니다.

그림

GTC에 전시된 두 개의 실리콘 광자 공동 밀봉 칩 Quantum-X 및 Spectrum-X의 매개변수

올해의 GTC에서 NVIDIA는 Quantum-X 실리콘 포토닉스 공동 밀봉 칩, Spectrum-X 실리콘 포토닉스 공동 밀봉 칩과 세 가지 파생 스위치 제품인 Quantum 3450-LD, Spectrum SN6810, Spectrum SN6800을 출시했습니다.

  • Quantum 3450-LD: 144개의 800GB/s 포트, 115TB/s 백플레인 대역폭, 액체 냉각

  • Spectrum SN6810: 128개의 800GB/s 포트, 102.4TB/s 백플레인 대역폭, 액체 냉각

  • Spectrum SN6800: 512개의 800GB/s 포트, 409.6TB/s 백플레인 대역폭, 액체 냉각

위 제품은 모두 "NVIDIA Photonics"로 통일 분류됩니다. 엔비디아는 이것이 CPO 파트너 생태계를 기반으로 공동 개발 및 개발된 플랫폼이라고 밝혔습니다. 예를 들어, 마이크로링 변조기(MRM)는 TSMC의 광학 엔진을 기반으로 최적화되었으며, 고전력, 고효율 레이저 변조를 지원하고 분리형 광섬유 커넥터를 사용합니다.

더욱 흥미로운 점은 기존 업계 정보에 따르면 TSMC의 마이크로링 모듈레이터(MRM)는 3nm 공정과 CoWoS와 같은 첨단 패키징 기술을 기반으로 TSMC와 Broadcom이 공동으로 개발했다는 ​​것입니다.

NVIDIA가 제공한 데이터에 따르면, 광 모듈 통합한 포토닉스 스위치는 기존 스위치보다 성능이 3.5배 향상되고, 배치 효율성은 1.3배 증가하며, 확장 탄력성은 10배 이상 높습니다.

모델 효율성 vs. DeepSeek: 소프트웨어 생태계는 AI 에이전트에 초점을 맞춥니다.

그림

황런쉰, AI 인프라의 ' 비트코인 파이'를 현장에서 설명하다

이 2시간짜리 GTC에서 황런쉰은 소프트웨어와 구현된 지능에 대해서만 약 30분 동안만 이야기했습니다. 그러므로 많은 세부 사항은 전적으로 현장에서 직접 얻은 것이 아니라 공식 문서를 통해 보완됩니다.

1) Nvidia Dynamo, 추론을 위한 Nvidia의 새로운 CUDA

이번에 출시된 소프트웨어 중에서는 확실히 엔비디아 다이나모가 폭탄입니다.

이는 전체 데이터 센터에서 추론, 훈련 및 가속을 위해 구축된 오픈 소스 소프트웨어입니다. Dynamo의 성능 데이터는 매우 충격적입니다. 기존 Hopper 아키텍처에서 Dynamo는 표준 Llama 모델의 성능을 두 배로 높일 수 있습니다. DeepSeek 와 같은 특수 추론 모델의 경우 NVIDIA Dynamo의 지능형 추론 최적화를 통해 각 GPU에서 생성되는 토큰 수를 30배 이상 늘릴 수 있습니다.

그림

황런쉰은 블랙웰이 다이너모를 사용하면 호퍼보다 25배 더 나은 성능을 낼 수 있음을 입증했습니다.

Dynamo의 이러한 개선은 주로 배포에 따른 것입니다. LLM(사용자 질의를 이해하고 최적의 응답을 생성하는 것)의 다양한 계산 단계를 서로 다른 GPU에 분산시켜 각 단계를 독립적으로 최적화하고, 처리량을 개선하며, 응답 속도를 높입니다.

그림

다이나모 시스템 아키텍처

예를 들어, 입력 처리 단계, 즉 사전 채우기 단계에서 Dynamo는 사용자 입력을 처리하기 위해 GPU 리소스를 효율적으로 할당할 수 있습니다. 이 시스템은 여러 GPU 그룹을 사용하여 사용자 쿼리를 병렬로 처리하고, GPU 처리가 더 분산되고 빨라지기를 기대합니다. Dynamo는 FP4 모드를 사용하여 여러 GPU를 호출하여 사용자 질문을 병렬로 "읽고" "이해"합니다. 한 그룹의 GPU는 "제2차 세계 대전"에 대한 배경 지식을 처리하고, 다른 그룹은 "원인"과 관련된 역사적 데이터를 처리하고, 세 번째 그룹은 "과정"의 타임라인과 이벤트를 처리합니다. 이 단계는 여러 명의 연구 지원자가 동시에 대량 의 정보를 찾는 것과 같습니다.

출력 토큰을 생성할 때, 즉 디코딩 단계에서 GPU는 더욱 집중하고 일관성이 있어야 합니다. GPU의 수와 비교했을 때, 이 단계는 이전 단계의 사고 정보를 흡수하기 위해 더 많은 대역폭이 필요하므로 더 많은 캐시 읽기가 필요합니다. Dynamo는 일관되고 효율적인 응답 생성을 보장하기 위해 GPU 간 통신과 리소스 할당을 최적화합니다. 한편, NVL72 아키텍처의 고대역폭 NVLink 통신 기능을 최대한 활용하여 토큰 생성 효율성을 극대화합니다. 반면, "스마트 라우터"는 관련 KV(키 값)를 캐시한 GPU로 요청을 전달하여 반복 계산을 피하고 처리 속도를 크게 향상시킬 수 있습니다. 반복적인 계산이 생략되므로 일부 GPU 리소스가 해제되고 Dynamo는 이러한 유휴 리소스를 새로 들어오는 요청에 동적으로 할당할 수 있습니다.

이 아키텍처는 Kimi의 Mooncake 아키텍처와 매우 유사하지만, NVIDIA는 기반 인프라에 대해 더 많은 지원을 제공했습니다. Mooncake는 성능을 약 5배 정도 향상시킬 수 있지만, Dynamo의 추론 기능 향상이 더 뚜렷합니다.

예를 들어, Dynamo의 중요한 혁신 중 하나인 "GPU Planner"는 부하에 따라 GPU 할당을 동적으로 조정할 수 있고, "Low Latency Communication Library"는 GPU 간 데이터 전송을 최적화하며, "Memory Manager"는 서로 다른 비용 수준의 저장 장치 간에 추론 데이터를 지능적으로 이동하여 운영 비용을 더욱 절감합니다. LLM 인식 라우팅 시스템인 지능형 라우터는 중복 계산을 줄이기 위해 가장 적합한 GPU로 요청을 전달합니다. 이러한 일련의 기능은 GPU 부하를 최적화합니다.

이 소프트웨어 추론 시스템은 대규모 GPU 클러스터로 효율적으로 확장할 수 있어 단일 AI 쿼리를 최대 1,000개 GPU까지 원활하게 확장하여 데이터 센터 리소스를 최대한 활용할 수 있습니다.

GPU 운영자의 경우, 이러한 개선으로 백만 토큰당 비용이 크게 줄어들고 생산 용량이 크게 증가합니다. 동시에, 단일 사용자는 초당 더 많은 토큰을 획득할 수 있으며, 응답 속도가 빨라지고 사용자 경험이 향상됩니다.

그림

Dynamo를 사용하면 서버는 처리량과 응답 속도 사이의 황금선에 도달합니다.

GPU 프로그래밍의 기반이 되는 CUDA와 달리 Dynamo는 대규모 추론 부하의 지능적인 분배 및 관리에 중점을 둔 상위 수준 시스템입니다. 이는 애플리케이션과 기본 컴퓨팅 인프라 사이에 위치하며 추론 최적화된 분산 스케줄링 계층을 담당합니다. 하지만 10년 전 CUDA가 GPU 컴퓨팅 환경에 혁명을 일으켰던 것처럼 Dynamo도 추론 소프트웨어와 하드웨어 효율성에 대한 새로운 패러다임을 만드는 데 성공할 수도 있습니다.

Dynamo는 완전한 오픈 소스이며 PyTorch부터 Tensor RT까지 모든 주요 프레임 지원합니다. 오픈소스라 할지라도 여전히 경쟁력이 있습니다. CUDA와 마찬가지로 NVIDIA GPU에서만 작동하며 NVIDIA AI 추론 소프트웨어 스택의 일부입니다.

이 소프트웨어 업그레이드를 통해 NVIDIA는 Groq와 같은 전용 추론 AISC 칩에 대한 자체 방어 수단을 구축했습니다. 추론 인프라를 장악하려면 소프트웨어와 하드웨어의 조합이 필요합니다.

2) 라마 네모트론의 새로운 모델은 효율적이지만 여전히 DeepSeek을 이길 수는 없습니다.

Dynamo가 서버 활용도 측면에서는 정말 놀랍지만, NVIDIA는 모델 학습 측면에서는 여전히 실제 전문가들보다 약간 뒤처져 있습니다.

NVIDIA는 이번 GTC에서 효율성과 정확성에 초점을 맞춘 새로운 모델인 Llama Nemotron을 선보였습니다. 이 모델은 Llama 시리즈에서 파생되었습니다. NVIDIA의 특별한 미세 조정을 거친 이 모델은 알고리즘 정리를 통해 최적화되었으며, 원래의 Llama 모델보다 가벼워졌으며 무게는 48바이트에 불과합니다. 또한 o1과 유사한 추론 능력을 가지고 있습니다. Claude 3.7과 Grok 3처럼 Llama Nemotron 모델에는 사용자가 켜거나 끌 수 있는 추론 기능 스위치가 내장되어 있습니다. 이 시리즈는 보급형 Nano, 중급형 Super, 플래그십급 Ultra의 세 가지 레벨로 나뉘며, 각 레벨은 다양한 규모의 기업의 요구를 타겟으로 합니다.

그림

라마 네모트론의 구체적인 통계

효율성 측면에서 볼 때, 이 모델의 미세 조정 데이터 세트는 NVIDIA가 직접 생성한 합성 데이터로만 구성되었으며 총 토큰 수는 약 600억 개입니다. DeepSeek V3가 완전한 학습에 130만 H100 시간이 걸린 것과 비교했을 때, DeepSeek V3의 매개변수의 1/15에 불과한 이 모델은 미세 조정에 36만 H100 시간만 걸렸습니다. 학습 효율성은 DeepSeek보다 한 단계 낮습니다.

추론 효율성 측면에서 Llama Nemotron Super 49B 모델은 이전 세대 모델보다 훨씬 더 나은 성능을 보입니다. 토큰 처리량은 Llama 3 70B의 5배입니다. 단일 데이터 센터 GPU에서는 초당 3,000개 이상의 토큰을 처리할 수 있습니다. 하지만 DeepSeek 오픈 소스 데이 마지막 날에 공개된 데이터에 따르면, 각 H800 노드는 사전 채우기 중에 약 73.7k 토큰/초의 평균 처리량(캐시 적중 포함)을 기록했고, 디코딩 중에는 약 14.8k 토큰/초의 출력량을 기록했습니다. 둘 사이의 격차는 아직도 매우 뚜렷합니다.

그림

성능 측면에서 49B Llama Nemotron Super는 DeepSeek R1 에서 추출한 70B Llama 70B 모델보다 모든 지표에서 더 우수한 성능을 보입니다. 하지만 최근 Qwen QwQ 32B 모델과 같은 소계수, 고에너지 모델이 자주 출시되는 것을 고려하면, Llama Nemotron Super가 R1 본체와 경쟁할 수 있는 모델들 사이에서 두각을 나타내기는 어려울 것으로 추정됩니다.

가장 중요한 점은 이 모델이 DeepSeek이 NVIDIA보다 훈련 중에 GPU를 조정하는 방법을 더 잘 알고 있음을 증명한다는 것입니다.

3) 새로운 모델은 NVIDIA AI Agent 생태계의 전채요리일 뿐이며 NVIDIA AIQ는 메인 코스입니다.

NVIDIA가 추론 모델을 개발한 이유는 무엇입니까? 이는 주로 황이 주목하고 있는 AI의 다음 폭발적 포인트인 AI 에이전트를 준비하기 위한 것입니다. OpenAI, Claude 및 기타 대기업이 DeepReasearch와 MCP를 통해 점차적으로 Agent의 기반을 구축한 이후, NVIDIA도 Agent 시대가 도래했다고 믿고 있습니다.

NVIDA AIQ 프로젝트는 NVIDIA의 시도입니다. 이는 Llama Nemotron 추론 모델을 핵심으로 하여 플래너의 AI 에이전트에 기성 워크플로를 직접 제공합니다. 이 프로젝트는 NVIDIA의 블루프린트 수준에 속합니다. 블루프린트 수준은 개발자가 NVIDIA의 기술과 라이브러리를 보다 쉽게 ​​통합하는 데 도움이 되는 사전 구성된 참조 워크플로 및 템플릿 세트를 말합니다. AIQ는 NVIDIA가 제공하는 에이전트 템플릿입니다.

그림

NVIDA AIQ 아키텍처

Manus 와 마찬가지로 웹 검색 엔진 및 기타 전문 AI 에이전트와 같은 외부 도구를 통합하여 에이전트 자체가 검색을 수행하고 다양한 도구를 사용할 수 있도록 합니다. 라마 네모트론의 추론 모델은 사용자 작업을 완료하기 위해 처리 솔루션을 계획, 반영 및 최적화합니다. 또한 다중 에이전트 워크플로 아키텍처 구축도 지원합니다.

그림

이 템플릿을 기반으로 한 Servicenow 시스템

Manus보다 한 단계 더 나아가 기업 파일을 위한 정교한 RAG 시스템을 탑재했습니다. 이 시스템은 클레임, 임베딩, 벡터 저장, 재배열 및 LLM을 통한 최종 처리를 포함한 일련의 단계를 포함하며, 이를 통해 에이전트가 엔터프라이즈 데이터를 사용할 수 있도록 보장합니다.

이에 더해 엔비디아는 AI 추론 모델을 기업 데이터 시스템에 연결해 기업 데이터를 위한 DeepReasearch를 구축하는 AI 데이터 플랫폼도 출시했습니다. 이로 인해 저장 기술이 크게 발전하여 저장 시스템이 더 이상 단순한 데이터웨어하우스가 아니라 능동적 추론 및 분석 기능을 갖춘 지능형 플랫폼이 되었습니다.

그림

AI 데이터 플랫폼의 구성

또한 AIQ는 관찰성과 투명성 메커니즘을 매우 중시합니다. 이는 안전과 그에 따른 개선을 위해 매우 중요합니다. 개발팀은 에이전트 활동을 실시간으로 모니터링하고 성능 데이터를 기반으로 시스템을 지속적으로 최적화할 수 있습니다.

일반적으로 NVIDA AIQ는 다양한 Agent 기능을 제공하는 표준 Agent 워크플로 템플릿입니다. 추론 시대에 맞춰 진화한 Dify와 유사한 에이전트 구축 소프트웨어로, 실수가 더 적습니다.

인간형 로봇의 기본 모델이 공개되었습니다. 엔비디아는 완전히 폐쇄된 체현 생태계 루프를 만드는 것을 목표로 합니다.

1) 우주, 구현된 지능이 세상을 이해할 수 있도록 함

우리가 Agent에 집중하거나 현재에 투자한다면, 엔비디아의 구체화된 지능 레이아웃은 미래를 통합하는 것으로 볼 수 있습니다.

NVIDIA는 모델의 세 가지 요소, 즉 모델, 데이터, 해시레이트 모두 정리했습니다.

모델부터 시작해 보겠습니다. 이 GTC는 올해 1월에 발표된 Cosmos의 체현된 지능 기본 모델의 업그레이드 버전을 출시했습니다.

코스모스는 현재 이미지를 통해 미래의 이미지를 예측할 수 있는 모델입니다. 텍스트/이미지에서 입력 데이터를 받아 세부적인 비디오를 생성하고, 현재 상태(이미지/비디오)와 동작(신호/제어 신호)을 결합하여 장면의 진화를 예측할 수 있습니다. 이를 위해서는 세계의 물리적 인과 법칙을 이해해야 하므로, 엔비디아에서는 코스모스를 세계 기본 모델(WFM)이라고 부릅니다.

그림

코스모스의 기본 아키텍처

구체화된 지능의 경우 가장 핵심적인 능력은 기계의 행동이 외부 세계에 미치는 영향을 예측하는 것입니다. 오직 이런 방식으로만 모델은 예측에 기반하여 행동을 계획할 수 있으며, 세계 모델은 구체화된 지능의 기본 모델이 됩니다. 이러한 기본적인 행동/시간-물리적 세계 변화 예측 모델을 통해 자율 주행 및 로봇 작업과 같은 특정 데이터 집합을 미세 조정함으로써 이 모델은 물리적 형태를 갖춘 다양한 구체화된 지능의 실제 구현 요구 사항을 충족할 수 있습니다.

전체 모델은 세 가지 역량으로 구성되어 있습니다. 첫 번째 부분인 Cosmos Transfer는 구조화된 비디오 텍스트 입력을 제어 가능한 사실적 비디오 출력으로 변환하고, 텍스트를 사용하여 방대한 합성 데이터를 생성합니다. 이는 오늘날 구체화된 지능의 가장 큰 병목 현상인 데이터 부족 문제를 해결합니다. 더욱이 이 생성은 "제어 가능한" 생성입니다. 즉, 사용자가 특정 매개변수(예: 날씨 조건, 객체 속성 등)를 지정하면 모델이 생성 결과를 그에 따라 조정하여 데이터 생성 프로세스를 보다 제어 가능하고 목표 지향적으로 만듭니다. 전체 프로세스는 Ominiverse와 Cosmos와 결합될 수도 있습니다.

그림

코스모스는 오미니버스를 기반으로 구축된 현실 시뮬레이션입니다.

두 번째 부분인 Cosmos Predict는 다중 모드 입력으로부터 가상 세계 상태를 생성하여 다중 프레임 생성과 동작 궤적 예측을 지원합니다. 즉, 시작 상태와 종료 상태가 주어지면 모델은 그럴듯한 중간 과정을 생성할 수 있다는 의미입니다. 이는 물리적 세계를 이해하고 구성하는 핵심 능력입니다.

세 번째 부분은 시공간적 인식 기능을 갖춘 개방적이고 완벽하게 사용자 정의 가능한 모델인 Cosmos Reason입니다. 사고 사슬 추론을 통해 비디오 데이터를 이해하고 상호작용 결과를 예측합니다. 이는 행동을 계획하고 행동의 결과를 예측하는 능력이 향상되는 것을 말합니다.

이 세 가지 기능을 점진적으로 추가함으로써 Cosmos는 실제 이미지 토큰 + 텍스트 명령 프롬프트 토큰 입력에서 머신 액션 토큰 출력까지 완전한 행동 체인을 구현할 수 있습니다.

이 기본 모델은 정말 잘 작동할 겁니다. 출시 후 불과 2개월 만에 1X, Agility Robotics, Figure AI 등 3대 기업이 이를 사용하기 시작했습니다. 엔비디아는 대규모 언어 모델 분야에서 선두를 달리고 있지는 않지만, 체현된 지능 분야에서는 확실히 선두주자입니다.

2) 세계 최초의 휴머노이드 로봇 기본 모델, 아이작 GR00T N1

NVIDIA는 Cosmos를 통해 이 프레임 사용하여 인간형 로봇에 맞춰 기본 모델인 Isaac GR00T N1을 미세 조정하고 훈련시켰습니다.

그림

Isaac GR00T N1 듀얼 시스템 아키텍처

빠른 반응을 제공하는 "시스템 1"과 심층적인 추론을 제공하는 "시스템 2"로 구성된 이중 시스템 아키텍처를 채택했습니다. 포괄적인 미세 조정을 통해 잡기, 이동, 양팔 조작과 같은 일반적인 작업을 처리할 수 있습니다. 또한 특정 로봇에 맞게 완벽하게 맞춤화할 수 있으며, 로봇 개발자는 사후 훈련을 위해 실제 데이터나 합성 데이터를 사용할 수 있습니다. 이를 통해 이 모델은 다양한 모양의 거의 모든 종류의 로봇에 배포될 수 있습니다.

예를 들어, 엔비디아는 구글 딥마인드와 디즈니와 협력하여 뉴턴 물리 엔진을 개발하면서, 아이작 GR00T N1을 기반으로 매우 특이한 작은 디즈니 BDX 로봇을 구동했습니다. 이를 통해 얼마나 다재다능한지 알 수 있습니다. 뉴턴은 매우 세부적인 물리 엔진이므로, 가상 환경에서 구체화된 지능을 훈련하기 위한 물리적 보상 시스템을 구축하는 것으로 충분합니다.

그림

황런쉰과 BDX 로봇, 무대에서 '열정적으로' 소통

4) 데이터 생성, 두 가지 접근 방식

NVIDIA는 위에 언급된 NVIDIA Omniverse와 NVIDIA Cosmos Transfer 월드 기반 모델을 결합하여 Isaac GR00T 블루프린트를 만들었습니다. 로봇 조작 훈련을 위해 소량의 인간 시연으로부터 대량 의 합성 동작 데이터를 생성할 수 있습니다. NVIDIA는 Blueprint의 첫 번째 구성 요소를 사용하여 단 11시간 만에 780,000개의 합성 궤적을 생성했습니다. 이는 인간이 시연하는 데이터로 6,500시간(약 9개월)에 해당합니다. Isaac GR00T N1의 상당 부분 데이터가 여기에서 나왔으며, 실제 데이터만 사용하는 경우와 비교했을 때 GR00T N1의 성능이 40% 향상되었습니다.

그림

트윈 시뮬레이션 시스템

각 모델에 대해 NVIDIA는 순수 가상 시스템인 Omniverse와 실제 이미지 생성 시스템인 Cosmos Transfer를 통해 대량 의 고품질 데이터를 제공할 수 있습니다. 엔비디아는 또한 이 모델의 두 번째 측면을 다룹니다.

3) 훈련부터 종료까지 로봇 컴퓨팅 제국을 건설하는 트리니티 해시레이트 시스템

황은 작년부터 GTC에서 "3대의 컴퓨터"라는 개념을 강조해 왔습니다. 그 중 하나는 DGX로, 구현된 지능을 포함한 AI를 훈련하는 데 사용되는 대형 GPU 서버입니다. 또 다른 AGX는 NVIDIA가 엣지 컴퓨팅과 자율 시스템을 위해 설계한 임베디드 컴퓨팅 플랫폼입니다. 자율주행이나 로봇의 핵심 칩 등 엔드 측에 AI를 배치하는 데 사용됩니다. 세 번째는 데이터를 생성하는 컴퓨터 옴니버스+코스모스입니다.

그림

체화된 지능의 세 가지 주요 컴퓨팅 시스템

황은 이 시스템을 이번 GTC에서도 다시 언급했으며, 이 해시레이트 시스템을 사용하면 수십억 개의 로봇이 탄생할 수 있다고 구체적으로 언급했습니다. 훈련부터 배포까지 NVIDIA의 해시레이트 활용됩니다. 이 부분도 닫혔습니다.

결론

이전 세대의 블랙웰 칩과 단순하게 비교해보면, 블랙웰 울트라의 하드웨어는 '핵폭탄', '대폭탄'과 같은 기존의 수식어에 맞지 않으며, 심지어 치약을 짜는 듯한 느낌마저 듭니다.

하지만 로드맵 기획의 관점에서 보면 이 모든 것은 황인쉰의 레이아웃의 일부입니다. 내년과 그 이듬해에는 루빈 아키텍처가 칩 기술, 트랜지스터, 랙 통합, GPU 상호 연결, 캐비닛 상호 연결 및 기타 사양 면에서 상당한 개선을 보일 예정입니다. 중국 속담에 "최고는 아직 오지 않았다"라는 말이 있습니다.

하드웨어 수준에서의 헛된 약속에 비해, NVIDIA는 지난 2년 동안 소프트웨어 수준에서 급속한 진전을 이루었습니다.

NVIDIA의 전체 소프트웨어 생태계를 살펴보면 Meno, Nim, Blueprint의 세 가지 서비스 수준에는 모델 최적화, 모델 캡슐화부터 애플리케이션 구축까지 풀스택 솔루션이 포함되어 있습니다. 클라우드 서비스 회사와 NVIDIA AI의 생태적 틈새는 모두 겹칩니다. NVIDIA는 Agent와 AI 인프라를 추가하면서 기본 모델을 제외한 모든 부분을 인수하려 합니다.

소프트웨어에 관한 한, 황의 관심은 엔비디아의 주가만큼이나 크다.

로봇 시장에서 엔비디아는 더 큰 야망을 가지고 있습니다. 모델, 데이터, 해시레이트 이라는 세 가지 요소는 모두 우리의 손에 달려 있습니다. 기본 언어 모델링에서 선두 자리를 차지하지는 못했지만, 기본적인 체현 지능으로 만회했습니다. 그림자 속에서, 구체화된 지적인 독점 거대 기업이 지평선에 나타났습니다.

여기에서는 모든 링크와 모든 제품이 수천억 달러 규모의 잠재적 시장에 해당합니다. 어린 시절 온갖 것을 걸고 도박을 했던 운 좋은 도박왕 황런쉰은 GPU 독점으로 얻은 돈으로 더 큰 도박을 시작했습니다.

이 도박에서 엔비디아가 소프트웨어나 로봇 시장에서 승리한다면, 그것은 AI 시대의 구글, 즉 식품사슬의 최고 독점자가 될 것입니다.

하지만 엔비디아의 GPU 이익율 살펴보면, 우리는 여전히 그런 미래가 오지 않기를 바랍니다.

다행히도 라오 황에게 이것은 그가 평생 한 번도 해본 적이 없는 큰 도박이었고, 결과는 예측할 수 없었다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
1
코멘트