
Intel과 Microsoft는 수년 동안 컴퓨터 시대를 지배했던 Wintel을 만들었습니다.
어떤 의미에서 엔비디아의 CUDA는 CPU 시대의 윈도우에 버금가는 역할을 하며, 애플리케이션 생태계를 구축하는 중요한 업무를 담당하고 있습니다. 생태학적 장벽은 칩 성능보다 경쟁에 대한 더 깊은 장벽입니다. 따라서 CUDA는 NVIDIA의 가장 큰 트럼프 카드입니다.
CPU 시대에 우리는 오랫동안 Wintel에 의해 억압당했습니다. AI 시대에 엔비디아는 GPU와 CUDA를 통합해 무너지기 어려운 또 다른 윈텔이 될 것인가. 지금까지는 그렇습니다.
미국의 중국 AI 산업 탄압으로 인해 칩카드의 활용도가 높아지고 있다. 미국 정부뿐만 아니라 Nvidia 자체도 상업적 경쟁을 고려하여 점점 더 "카드 놀이" 경향을 보이고 있습니다. 그리고 CUDA는 NVIDIA의 가장 큰 트럼프 카드입니다. 중국이 AI 컴퓨팅 분야의 봉쇄를 돌파하려면 자체 GPU뿐만 아니라 자체 CUDA도 보유해야 합니다. 이를 달성하기 위한 현재 유일한 방법은 화웨이에 의존하는 것 같습니다.
CUDA는 NVIDIA의 가장 깊은 해자입니다.
그래픽 렌더링 세계에서 NVIDIA는 뛰어난 GPU 기술로 시장의 호평을 받았습니다. 그러나 NVIDIA는 여기서 멈추지 않고 이미 그래픽 렌더링의 경계를 넘어 더 넓은 컴퓨팅 분야에 투자했습니다. 2006년에 NVIDIA는 CUDA(Compute Unified Device Architecture)를 출시했는데, 이는 NVIDIA가 그래픽 렌더링 거대 기업에서 컴퓨팅 거대 기업으로 변모한 것을 의미합니다.

CUDA 개발 프로세스에는 몇 가지 핵심 노드가 있습니다:
2007년: CUDA 1.0의 출시로 GPU의 일반적인 컴퓨팅 기능이 열렸고 개발자에게 GPU 프로그래밍의 세계로 들어갈 수 있는 열쇠가 제공되었습니다.
2008: CUDA 2.0에는 과학 컴퓨팅 및 엔지니어링 시뮬레이션과 같은 영역에 중요한 배정밀도 부동 소수점 연산에 대한 지원이 추가되었습니다.
2010년: CUDA 3.0은 GPU의 병렬 처리 기능을 더욱 확장하고 보다 복잡한 컴퓨팅 작업에 대한 지원을 제공했습니다.
2012년: CUDA 5.0은 동적 병렬성을 도입하여 GPU 코어가 스스로 복제할 수 있도록 하여 프로그램 유연성과 효율성을 크게 향상시켰습니다.
이러한 버전은 CUDA 기술의 발전을 촉진했을 뿐만 아니라 GPU 병렬 컴퓨팅 개발 역사에서 중요한 이정표가 되었습니다.

CUDA의 핵심은 혁신적인 병렬 컴퓨팅 모델에 있습니다. 컴퓨팅 작업을 수천 개의 스레드로 분해함으로써 CUDA는 GPU에서 전례 없는 병렬 처리 기능을 달성할 수 있습니다. 이 모델은 컴퓨팅 효율성을 크게 향상시킬 뿐만 아니라 GPU를 복잡한 컴퓨팅 문제를 해결하는 데 이상적인 플랫폼으로 만듭니다. 딥 러닝부터 과학 시뮬레이션까지 CUDA는 병렬 컴퓨팅의 새로운 시대를 정의하고 고성능 컴퓨팅의 새로운 장을 엽니다.
AI와 빅데이터의 등장으로 CUDA의 시장 영향력은 계속 확대되고 있다. 개발자들은 GPU의 강력한 컴퓨팅 성능을 활용하여 애플리케이션을 가속화하기 위해 CUDA로 눈을 돌리고 있습니다. 기업들도 CUDA의 가치를 인정하고 이를 제품 성능과 경쟁력을 향상시키는 핵심 기술로 여기고 있다. 통계에 따르면 CUDA는 3,300만 번 이상 다운로드되었습니다.
NVIDIA의 경우 CUDA는 NVIDIA의 가장 깊은 해자가 되었습니다. 이는 GPU 시장에서 NVIDIA의 리더십 위치를 공고히 할 뿐만 아니라 NVIDIA가 고성능 컴퓨팅, 딥 러닝, 자율 주행 등 다양한 첨단 분야에 진출할 수 있는 문을 열어줍니다. 기술이 계속 발전하고 시장이 계속 확장됨에 따라 CUDA는 의심할 여지 없이 계속해서 NVIDIA의 가장 깊은 해자 역할을 수행하여 컴퓨팅 기술의 미래를 선도할 것입니다.
CUDA보다 12년 뒤처진 DaVinci 아키텍처가 화웨이의 AI 야망을 지원할 수 있을까요?
DaVinci 아키텍처는 화웨이가 자체 개발한 AI 컴퓨팅 아키텍처로서, 그 기원은 AI의 미래 애플리케이션에 대한 화웨이의 심오한 통찰력과 밀접하게 관련되어 있습니다. 몇 년 전 화웨이는 2025년까지 전 세계 스마트 단말기 수가 400억 대에 도달하고, 스마트 어시스턴트 보급률이 90%, 기업 데이터 사용률이 86%에 이를 것이라고 예측했습니다. 이러한 예측을 바탕으로 화웨이는 2018 풀 커넥션 컨퍼런스에서 풀 스택, 올-시나리오 AI 전략을 제안했으며, 다양한 볼륨 및 전력 소비 조건에서 강력한 AI 해시레이트 제공하도록 DaVinci 컴퓨팅 아키텍처를 설계했습니다.
Da Vinci 아키텍처의 개발은 Huawei가 출시한 AI 칩 Ascend 310이 데뷔하여 Da Vinci 아키텍처의 공식 적용이 된 2018년으로 거슬러 올라갑니다. 그 직후 화웨이는 2019년 6월 새로운 8시리즈 휴대폰 SoC 칩인 Kirin 810을 출시했는데, 이 칩은 처음으로 DaVinci 아키텍처 NPU를 사용하여 업계 최고의 엔드사이드 AI 해시레이트 달성했습니다. AI 벤치마크 목록에서 Kirin 810의 뛰어난 성능은 DaVinci 아키텍처의 강점을 입증합니다.
DaVinci 아키텍처는 AI 컴퓨팅 특성에 맞게 특별히 설계된 새로운 컴퓨팅 아키텍처로, 높은 해시레이트, 높은 에너지 효율성, 유연성 및 조정 가능성이라는 특징을 가지고 있습니다. 핵심 장점은 3D Cube를 사용하여 매트릭스 작업을 가속화한다는 것입니다. 각 AI Core는 한 클럭 주기에 4096개의 MAC 작업을 구현할 수 있으며 이는 기존 CPU 및 GPU에 비해 훨씬 향상된 성능입니다. 또한 DaVinci 아키텍처는 벡터, 스칼라, 하드웨어 가속기 와 같은 다양한 컴퓨팅 장치를 통합하고 다중 정밀 계산을 지원하여 교육 및 추론 시나리오의 데이터 정확도 요구 사항을 지원합니다.
DaVinci 아키텍처는 터미널부터 클라우드까지 모든 시나리오 AI 애플리케이션을 포괄하는 광범위한 애플리케이션 분야를 보유하고 있습니다. 기기 측면에서는 Kirin 810 칩의 AI 해시레이트 스마트폰에 사용되어 소비자에게 풍부한 AI 애플리케이션 경험을 제공합니다. 엣지와 클라우드에서 Ascend 시리즈 AI 프로세서는 수십 밀리와트에서 수백 와트에 이르는 훈련 시나리오를 충족하여 최적의 AI 해시레이트 제공할 수 있습니다. DaVinci 아키텍처의 유연성과 효율성 덕분에 DaVinci 아키텍처는 스마트 시티, 자율 주행, 산업 제조 및 기타 분야에서 중요한 역할을 할 수 있습니다.
DaVinci 아키텍처가 Huawei의 AI 시장 레이아웃에서 핵심 위치를 차지하는 것은 사실입니다. 이는 화웨이 AI 칩의 기술적 기반일 뿐만 아니라 화웨이의 풀 스택, 올-시나리오 AI 전략을 위한 중요한 지원이기도 합니다. DaVinci 아키텍처를 통해 화웨이는 하드웨어부터 소프트웨어까지 풀스택 AI 솔루션을 제공하여 AI 기술의 산업화와 적용을 가속화할 수 있습니다. 또한 DaVinci 아키텍처의 통합은 개발자에게 편의성을 제공하고, 개발 및 마이그레이션 비용을 절감하며, AI 애플리케이션의 혁신과 개발을 촉진합니다.
다빈치 VS CUDA, 승률은 얼마나 되나요?
2006년 출시된 CUDA와 비교하면 화웨이 다빈치는 12년이나 늦었다. 지난 12년 동안 레오나르도 다빈치가 따라잡았습니다. 시간적 차이 외에도 DaVinci와 CUDA는 건축 설계 철학, 성능, 도구 체인, 개발자 생태학 등 여러 측면에서 상당한 차이를 가지고 있습니다.
디자인 철학 측면에서 CUDA는 NVIDIA가 개발한 병렬 컴퓨팅 플랫폼이자 API 모델로, 개발자가 효율적인 병렬 컴퓨팅을 위해 NVIDIA GPU를 사용할 수 있도록 해줍니다. DaVinci 아키텍처는 AI 컴퓨팅 기능을 위해 Huawei가 개발한 새로운 컴퓨팅 아키텍처입니다. 3D Cube를 사용하여 매트릭스 작업을 가속화하고 단위 전력 소비당 AI 해시레이트 크게 향상시킵니다. CUDA의 디자인은 다양성에 더 초점을 맞춘 반면 DaVinci는 AI 컴퓨팅의 효율성에 중점을 둡니다.
AI 컴퓨팅 성능 측면에서 CUDA와 DaVinci는 각각 장점이 있습니다. CUDA는 다년간의 기술 축적을 바탕으로 대규모 병렬 처리 기능을 지원하며 다양하고 복잡한 컴퓨팅 작업을 처리하는 데 적합합니다. Da Vinci 아키텍처는 3D 큐브 컴퓨팅 엔진을 통해 매트릭스 작업을 최적화하여 단위 면적당 AI 해시레이트 크게 향상시킵니다. 딥러닝과 같은 AI 응용 시나리오에서 DaVinci 아키텍처는 탁월한 성능을 보여주었습니다.
CUDA와 DaVinci 아키텍처는 다양한 분야에서 적용 가능성이 다릅니다. CUDA는 과학 연구, 의학, 금융 및 기타 분야에서 널리 사용됩니다. DaVinci 아키텍처는 주로 AI 컴퓨팅을 목표로 하며, 특히 스마트폰, 자율 주행, 클라우드 업무 등과 같은 장치 측, 엣지 측 및 클라우드의 AI 애플리케이션 시나리오에서 더욱 그렇습니다.
개발자의 관점에서 볼 때 CUDA와 DaVinci 아키텍처는 프로그래밍 모델과 도구 체인의 사용 편의성이 다릅니다. CUDA는 CUDA 컴파일러, 디버거, 성능 분석 도구 등을 포함한 완전한 개발 도구 체인을 제공하고 여러 프로그래밍 언어와 딥 러닝 프레임 지원합니다. DaVinci 아키텍처는 늦게 시작되었지만 Huawei는 도구 체인과 개발자 생태계를 적극적으로 구축하여 개발자 사용과 혁신을 촉진하는 데 필요한 지원을 제공하고 있습니다. 그러나 툴 체인의 완성도와 풍부함 측면에서 볼 때 Da Vinci는 여전히 CUDA에 비해 훨씬 뒤떨어져 있습니다.
CUDA는 광범위한 애플리케이션과 성숙한 기술을 통해 대규모 개발자 커뮤니티와 생태계를 구축했습니다. 단순히 GPU 성능을 향상시키는 것보다 생태학적 구축이 더 어렵습니다. 이것이 화웨이의 실제 테스트입니다.
화웨이 GPU는 거의 준비가 되었지만 자체 CUDA를 구축하려면 아직 멀었습니다.
현재 화웨이의 GPU 개발 추세는 비교적 양호하다.
공개 정보에 따르면 2023년 화웨이의 해시레이트 GPU 덤핑 약 10만 개가 될 것으로 예상됩니다. 생산 능력이 증가함에 따라 2024년에는 이 숫자가 몇 배로 증가하여 수십만 개에 이를 것으로 예상됩니다. 생산 능력 증가에도 불구하고 시장 주문 수요는 여전히 매우 강해 2024년 1월에만 주문량이 수십만 개에 달합니다. 현재 주문 수요는 화웨이의 현재 공급 능력을 훨씬 초과하는 수백만 개에 달했습니다.
국내 구매 측면에서 화웨이의 해시레이트 GPU는 시장에서 큰 호응을 얻었습니다. Huawei의 해시레이트 GPU 고객은 주로 3개 계층으로 나뉩니다. 첫 번째 범주는 3개 주요 통신업체 및 정부 업무 고객, 두 번째 범주는 인터넷 고객, 세 번째 범주는 기타 회사입니다. GPU 해시레이트 이 부족해 고객들이 빠른 시일 내에 제품을 확보하기 위해 1차 고객이 되기 위해 노력하고 있으며, 우선 공급을 보장하기 위해 지자체와 협력하는 등의 조치도 취하고 있다.
가격 측면에서 화웨이의 해시레이트 GPU는 2023년 8월 상장 이후 최소 2번의 가격 인상을 경험했습니다. 초기 상장 가격은 약 70,000위안 정도였으며, 현재 시세는 약 120,000위안까지 올랐습니다.
전반적으로 Huawei GPU의 개발 추세는 양호하고 시장 수요가 강합니다. 비록 공급이 부족하지만 이는 성능과 현지화 측면에서 Huawei GPU의 장점을 반영하여 시장에서 이슈 선택이 되고 있습니다. 지속적인 기술 발전과 생산 능력의 추가 개선으로 인해 Huawei GPU는 미래 시장에서 더욱 중요한 위치를 차지할 것으로 예상됩니다.
황런순은 단독 인터뷰에서 "화웨이는 좋은 회사"라고 말했다. 또한 엔비디아는 재무보고서에서 화웨이를 주요 경쟁사로 기재했는데, 이는 GPU 및 관련 기술 분야에서 화웨이의 경쟁력이 높아지고 있음을 반영한다.
Huawei의 GPU 개발 추세는 좋지만, GPU 분야의 지배적인 프레임 인 CUDA는 AMD가 개발한 프레임 프레임 포함하여 다른 프레임 훨씬 능가하는 성숙도와 생태계에 대한 폭넓은 수용성을 갖추고 있습니다. 화웨이의 AI 컴퓨팅 프레임 생태학적 건설 측면에서 아직 갈 길이 멀다. CUDA에 필적하는 생태계를 점진적으로 구축하려면 지속적인 기술 혁신과 시장 홍보가 필요하다.
그러나 엔비디아는 화웨이에게 성장할 시간을 주고 싶지 않습니다.
최근 NVIDIA는 CUDA 플랫폼의 호환성 정책을 조정하여 NVIDIA 이외의 하드웨어 플랫폼에서 CUDA 소프트웨어의 실행 동작을 제한했습니다. 이 결정은 2021년에 시작되었으며 이후 몇 년 동안 점차 강화될 예정입니다. 특히 Nvidia는 EULA(최종 사용자 라이센스 계약)를 업데이트하여 Nvidia GPU가 아닌 GPU에서 CUDA 코드를 실행하기 위해 변환 레이어 또는 에뮬레이션 레이어를 사용하는 것을 명시적으로 금지했습니다.
이 정책 변경은 주로 ZLUDA와 같은 번역 기술을 통해 CUDA 호환성을 달성하려는 타사 프로젝트에 영향을 미칩니다. ZLUDA는 NVIDIA 이외의 하드웨어에서 CUDA 프로그램을 실행할 수 있는 번역 라이브러리로, 개발자가 약간의 성능 저하를 겪으면서도 CUDA 프로그램을 실행할 수 있는 비교적 간단한 방법을 제공합니다.
Nvidia의 움직임은 시장 점유율 보호하고 기술 통제권을 유지하기 위한 전략적 움직임으로 널리 알려져 있습니다. CUDA 소프트웨어가 다른 칩에서 사용될 수 있는 방법을 제한함으로써 Nvidia는 GPU가 병렬 컴퓨팅 플랫폼에 의존하는 개발자와 기업을 위한 첫 번째 선택으로 남을 수 있도록 보장합니다.
그러나 이번 결정은 업계에 적지 않은 충격을 안겨주었고 폭넓은 논의를 불러일으켰다. 많은 사람들은 Nvidia가 시장을 독점하고 경쟁사의 개발 기회를 억압하기 위해 봉쇄 정책을 사용하고 있다고 비난합니다.
NVIDIA의 제한 정책 대면 Moore Threads와 같은 일부 국내 GPU 회사는 EULA 규정을 준수하기로 결정했으며 NVIDIA의 제한 조건을 위반하지 않기 위해 EULA와 일치하도록 코드를 다시 컴파일하겠다고 밝혔습니다.
또한 AMD, Intel 및 기타 제조업체를 포함한 업계의 다른 세력은 NVIDIA의 제한으로 인해 멈추지 않고 NVIDIA의 시장 독점을 깨기 위해 개방형 및 휴대형 생태계 구축을 적극적으로 추진하고 있습니다.
Nvidia의 움직임 대면 Huawei는 자체 GPU 기술을 개발할 때 CUDA와 같은 성숙한 플랫폼에 의존하기보다는 자체 개발한 소프트웨어 도구와 개발 환경에 더 의존해야 합니다. 이는 Huawei가 CUDA 성능에 필적하는 프로그래밍 도구, 라이브러리 및 API 개발을 포함하여 자체 소프트웨어 생태계를 구축하는 데 더 많은 리소스를 투자해야 함을 의미합니다.
CUDA의 광범위한 사용과 고성능 컴퓨팅, AI 및 기타 분야에 대한 엄청난 영향으로 인해 장기간에 걸쳐 Nvidia의 이러한 정책으로 인해 Huawei GPU의 시장 수용이 제한될 수 있습니다. 특히 이미 CUDA에 의존하는 도메인을 깊이 갖고 있는 사람들입니다.
이로 인해 Huawei가 자체 AI 컴퓨팅 아키텍처 및 AI 생태계를 구축해야 하는 긴급성이 강화되었습니다. Android 공급 중단으로 Hongmeng이 성공했던 것처럼 CUDA 강화가 Huawei의 DaVinci 아키텍처에 도움이 될까요? 지금은 판단하기가 쉽지 않으니 잠시만 총알이 날아가도록 놔두세요.




