월가에 퍼진 1만 단어 보고서: 비트코인과 엔비디아 폭락의 배후

이 기사는 기계로 번역되었습니다
원문 표시

분석가와 소프트웨어 엔지니어로 일했던 한 전문 투자자가 엔비디아에 대한 약세 기사를 썼습니다. 이 기사는 트위터 인플루언서들에 의해 대량 전달되었고 엔비디아 주가 폭락의 주요 "원인"이 되었습니다. 엔비디아는 시총 6,000억 달러에 가까워졌으며, 이는 특정 상장 기업이 기록한 하루 최대 하락폭입니다.

투자자 제프리 에마누엘의 주요 관점 은 DeepSeek이 월가, 대형 기술 기업 및 엔비디아가 만든 헛소리를 깨뜨렸고, 엔비디아는 과대평가되어 있다는 것입니다. "모든 투자 은행은 마치 무슨 말인지도 모르는 맹인이 길을 안내하듯이 엔비디아를 사는 것을 추천합니다."

제프리 에마누엘은 엔비디아가 현재의 성장 궤도와 이익율 유지하려면 평가된 것보다 훨씬 더 험난한 길에 직면해 있다고 말했습니다. 엔비디아에 대한 공격 방향은 아키텍처 혁신, 고객 수직 통합, 소프트웨어 추상화, 효율성 획기적 발전, 제조 민주화 등 5가지로, 이 중 하나라도 엔비디아의 이익율 이나 성장률에 상당한 영향을 미칠 가능성은 높아 보입니다. 높은. 현재 가치 평가에서는 시장에서는 이런 리스크 반영되지 않았습니다.

일부 업계 투자자들에 따르면, 이 보고서 덕분에 에마누엘은 갑자기 월가의 유명인이 되었고, 많은 헤지펀드가 엔비디아와 AI에 대한 그의 견해를 듣고자 그에게 시간당 1,000달러를 지불했다고 합니다. 너무 바빠서 목은 아팠지만, 돈을 세느라 눈은 피곤했습니다.

전체 보고서는 다음과 같습니다. 전체 참고 연구.

저는 다양한 롱/ 공매도(Short) 헤지펀드(Millennium 및 Balyasny에서의 근무 포함)에서 약 10년 간 투자 분석가로 일했으며 2010년부터 딥러닝을 연구해 온 수학 및 컴퓨터 괴짜입니다(당시 Geoff Hinton) 저는 여전히 제한된 볼츠만 머신에 대해 이야기하고 있었고, 모든 것이 여전히 MATLAB에서 프로그래밍되었으며, 연구자들은 여전히 ​​지원 벡터 머신보다 손으로 쓴 숫자를 분류하는 데 더 나은 결과를 얻을 수 있다는 것을 증명하려고 노력했습니다. 저는 인공 지능에 대해 꽤 좋은 생각을 가지고 있었던 것 같습니다. . 스마트 기술의 개발과 주식 시장의 주식 가치 평가와의 관계에 대한 다소 독특한 견해.

지난 몇 년 동안 저는 개발자로서 더 많이 일해왔으며 다양한 형태의 AI 모델/서비스를 다루는 여러 인기 있는 오픈 소스 프로젝트를 진행했습니다(예: LLM 지원 OCR, Swiss Army Llama, Fast Vector Similarity). (최근의 몇 가지 예로는 소스에서 프롬프트로, 파스텔 추론 계층이 있습니다). 기본적으로 저는 이 최첨단 모델을 매일 집중적으로 활용하고 있습니다. 저는 Claude 계정이 3개 있어서 요청이 고갈되는 일이 없었고, ChatGPT Pro가 출시된 지 몇 분 만에 가입했습니다.

또한 저는 최신 연구 진행 상황을 파악하려고 노력하고 주요 인공지능 연구실에서 발행하는 모든 중요한 기술 보고서를 주의 깊게 읽습니다. 그래서 저는 제가 그 우주에 대해, 그리고 일이 어떻게 돌아가는지에 대해 꽤 잘 이해하고 있다고 생각합니다. 그동안 저는 엄청나게 대량 주식을 숏(Short) Value Investors Club의 최고 아이디어상을 두 번이나 수상했습니다(주의 깊게 살펴보셨다면 TMS 롱과 PDH 공매도(Short) 으로 수상했습니다).

제가 이렇게 말하는 것은 자랑하려는 것이 아니라, 기술자나 전문 투자자에게 절망적으로 순진해 보이지 않고도 이 문제에 대한 의견을 표명할 수 있다는 것을 보여주기 위해서입니다. 물론, 저보다 수학/과학에 더 능숙한 사람들이 많고, 주식시장에서 롱(Long)/ 숏(Short) 투자에 더 능숙한 사람들도 많지만, 저는 그런 사람들이 없다고 생각합니다. 저처럼 벤 다이어그램의 중간에 있는 사람들이 많습니다.

그런데 헤지펀드 업계의 친구나 전직 동료들을 만나 이야기를 나누면 언제나 주제는 금세 엔비디아로 넘어갑니다. 회사가 무명에서 시작해 영국, 프랑스, ​​독일 주식 시장을 합친 것보다 더 큰 시총 으로 성장하는 일은 매일 일어나는 일이 아닙니다! 이 친구들은 당연히 이 문제에 대한 내 의견을 알고 싶어합니다. 나는 이 기술의 장기적인 혁신적 영향을 강력히 믿기 때문에(나는 이 기술이 앞으로 5~10년 동안 근본적으로 전례 없는 방식으로 우리 경제와 사회의 모든 측면을 혁신할 것이라고 진심으로 믿습니다) 이에 대해 주장하기 어렵습니다. 엔비디아의 개발 추진력은 단기적으로 둔화되거나 중단될 것입니다.

하지만 저는 지난 1년여 동안 제 취향에 비해 평가가 너무 높다고 생각했지만 최근 일련의 사건으로 인해 전망에 대해 더 신중해지고 합의에 베팅하려는 본능에 약간 기울어지고 있습니다. 그럴 것 같으면 질문하세요. 가격이 너무 비싼. "현명한 사람은 처음에 믿고, 어리석은 사람은 끝에 믿는다"는 말이 유명한 데에는 이유가 있습니다.

불장(Bull market) 케이스

제가 주저하게 만드는 개발에 대해 논의하기 전에, 먼저 NVDA 주식에 대한 불장(Bull market) 사례를 간략히 요약해 보겠습니다. 기본적으로 모든 사람이 이제 NVDA 주식에 대한 불장(Bull market) 사례를 알고 있습니다. 딥러닝과 인공지능은 인터넷 이후 가장 혁신적인 기술이며, 우리 사회의 모든 것을 근본적으로 바꿀 것을 약속합니다. 엔비디아는 이미 업계 총 자본 지출에서 훈련 및 추론 인프라에 사용되는 비중 면에서 독점에 가까운 위치에 있습니다.

Microsoft, Apple, Amazon, Meta, Google, Oracle 등 세계에서 가장 크고 수익성이 높은 회사 중 일부는 뒤처질 여유가 없기 때문에 이 분야에서 경쟁력을 유지하기로 결정했습니다. 자본 지출 규모, 전기 사용량, 새로 건설된 데이터 센터의 면적, 그리고 물론 GPU의 수는 모두 폭발적으로 증가했으며 그 속도가 느려질 기미가 보이지 않습니다. 엔비디아는 데이터 센터를 위한 고급 제품을 통해 90%가 넘는 놀라운 매출 마진을 창출할 수 있습니다.

우리는 아직 불장(Bull market) 의 시작에 불과합니다. 이미 매우 낙관적이었던 사람들을 더욱더 낙관적으로 만들 수 있는 측면들이 더 많아졌습니다. 휴머노이드 로봇의 등장(이 로봇은 세탁, 청소, 정리, 요리와 같이 현재 비숙련(또는 숙련) 근로자가 필요로 하는 대량 작업을 빠르게 수행할 수 있으므로 대부분의 사람들이 놀랄 것이라고 생각합니다. 건설 작업도 마찬가지입니다. 욕실을 리모델링하거나 집을 짓는 것, 창고를 관리하고 지게차를 운전하는 것 등) 외에도 대부분 사람들이 아직 고려하지 않은 다른 요소들이 있습니다.

똑똑한 사람들 사이에서 가장 많이 논의되는 주제 중 하나는 시간이 지남에 따라 컴퓨팅 요구 사항이 어떻게 증가할지에 대한 새로운 패러다임을 제공하는 "새로운 확장 법칙"의 부상입니다. 2012년 AlexNet의 등장과 2017년 Transformer 아키텍처의 발명 이후 AI의 발전을 주도해 온 원래의 스케일링 법칙은 사전 학습 스케일링 법칙입니다. 즉, 학습 데이터로 사용하는 토큰의 가치가 높을수록(현재는 수조 달러) ), 우리가 훈련하는 모델이 더 빨라질 것입니다. 매개변수의 수가 많을수록 이러한 토큰으로 이러한 모델을 훈련하는 데 소모하는 계산 능력(FLOPS)이 더 많아지고 다양한 최종 모델의 성능이 더 좋아질 것입니다. 매우 유용한 다운스트림 작업입니다.

뿐만 아니라 OpenAI와 Anthropic과 같은 선도적인 AI 랩이 실제 학습을 시작하기 전에도 최신 모델이 얼마나 좋을지 꽤 잘 알고 있을 정도로 개선이 예측 가능합니다. 어떤 경우에는 심지어 최종 모델의 기준값을 몇 퍼센트 포인트 이내로 예측합니다. 이 "팽창의 원래 법칙"은 매우 중요하지만, 이를 사용하여 미래를 예측하는 사람들 사이에는 항상 의심을 불러일으켰습니다.

첫째, 우리는 세상에 축적된 고품질 학습 데이터 세트를 모두 소진한 것 같습니다. 물론, 이는 전적으로 사실이 아닙니다. 적절하게 디지털화되지 않은 오래된 서적과 저널이 여전히 많이 있으며, 디지털화되었더라도 훈련 데이터로 사용할 수 있는 적절한 허가를 받지 않은 경우가 많습니다. 문제는, 1500에서 2000년까지 영어로 "전문적으로" 제작된 모든 서면 콘텐츠의 합계를 예로 들어, 거의 15조 태그 의 교육 코퍼스에 대해 이야기할 때 이 모든 것을 당신의 공로로 인정하더라도, 여전히 퍼센트 포인트 관점에서 보면 많은 데이터입니다. CNN 관점에서 보면 이는 엄청난 숫자는 아니지만, 훈련 코퍼스의 크기는 현재 최첨단 모델의 크기입니다.

이 숫자의 진실성을 빠르게 확인하려면: Google Books는 지금까지 약 4천만 권의 책을 디지털화했습니다. 평균적인 책에 50,000~100,000단어 또는 65,000~130,000 태그 있다면 책만 해도 약 5천만 달러의 가치가 있습니다. 이는 2.6T와 5.2T의 태그, 그 중 많은 부분이 이미 대규모 연구실에서 사용하는 교육 자료에 포함되어 있습니다. 합법적이든 아니든 말입니다. arXiv 웹사이트에만 200만 건이 넘는 논문이 실려 있을 만큼 학술 논문도 많습니다. 의회도서관은 30억 페이지가 넘는 신문을 디지털화하여 보관하고 있습니다. 모두 합치면 총 7T 토큰이 될 수 있지만, 대부분이 실제로 훈련 코퍼스에 포함되기 때문에 남은 "증분" 훈련 데이터는 전반적인 계획에서 그렇게 중요하지 않을 수 있습니다.

물론, 더 많은 훈련 데이터를 수집할 수 있는 다른 방법도 있습니다. 예를 들어, 모든 YouTube 동영상을 자동으로 음성으로 변환하여 해당 텍스트를 사용할 수 있습니다. 이것이 도움이 될 수는 있지만, 세상에 대한 지식의 유용한 원천인 평판 있는 유기화학 교과서에 비하면 확실히 품질이 훨씬 낮습니다. 따라서 규모의 원시 법칙에 따라 우리는 끊임없이 "데이터 벽"의 위협에 직면해 있습니다. 우리는 GPU에 더 많은 자본 지출을 계속 투자하고 더 많은 데이터 센터를 구축할 수 있다는 사실을 알고 있지만, 규모에 맞게 유용한 새로운 인간 지식을 생산하는 것은 그렇지 않습니다. 일어날 것입니다. 훨씬 더 어렵고 이 지식은 기존 지식에 대한 적절한 보완입니다. 이제 흥미로운 반응은 LLM의 출력이 텍스트 자체인 "합성 데이터"의 부상입니다. 이것이 약간 우스꽝스럽게 보일 수 있지만, "자체 공급을 통해 모델 품질을 개선하는 것"은 적어도 수학, 논리 및 컴퓨터 프로그래밍 분야에서 실제로는 매우 효과적입니다.

그 이유는 물론, 이런 분야에서는 우리가 기계적으로 점검하고 모든 것이 올바른지 증명할 수 있기 때문입니다. 따라서 우리는 거대한 수학 정리나 Python 스크립트에서 샘플을 채취하여 실제로 그것들이 올바른지 확인할 수 있으며, 올바른 데이터만 데이터베이스에 포함됩니다. 이런 방식으로, 적어도 이 분야에서는 고품질의 훈련 데이터 세트를 크게 확장할 수 있습니다.

텍스트 외에도 다양한 다른 데이터를 사용해 인공지능을 훈련할 수 있습니다. 예를 들어, 1억 명의 사람들의 전체 유전체 시퀀싱 데이터(압축되지 않은 한 사람의 데이터 크기는 약 200GB~300GB)를 가져와서 인공지능을 훈련시키는 데 사용하면 무슨 일이 일어날까요? 이는 분명 방대한 양의 데이터지만, 그 중 대부분은 두 사람 사이에서 거의 동일합니다. 물론, 책이나 인터넷의 텍스트 데이터와 비교하는 것은 여러 가지 이유로 오해의 소지가 있습니다.

원시 게놈 크기는 태그 수와 직접 비교할 수 없습니다.

게놈 데이터의 정보 내용은 텍스트와 매우 다릅니다.

고도로 중복된 데이터의 교육 가치는 명확하지 않습니다.

게놈 데이터를 처리하기 위한 계산 요구 사항도 다릅니다.

하지만 이는 미래에 우리가 훈련에 활용할 수 있는 거대한 정보의 원천이기도 하므로 포함시켰습니다.

따라서 우리는 점점 더 많은 추가 훈련 데이터를 기대할 수 있지만, 최근 몇 년 동안 훈련 코퍼스가 성장한 속도를 살펴보면 곧 "일반적으로 유용한" 지식 데이터의 가용성에 병목 현상이 발생할 것입니다. 그리고 이런 종류의 지식의 축적은 우리가 존 폰 노이만보다 10배 더 똑똑한 인공 초지능을 구축하고, 인간이 알고 있는 모든 전문 분야에서 세계적인 전문가가 되는 궁극적인 목표에 더 가까이 다가가는 데 도움이 될 수 있습니다.

사용 가능한 데이터의 양이 제한적이라는 점 외에도 사전 학습 확장 법칙을 지지하는 사람들의 마음속에는 다른 우려 사항도 도사리고 있습니다. 그 중 하나는 모델을 훈련한 후 이 모든 컴퓨팅 인프라를 어떻게 사용할 것인가입니다. 다음 모델을 훈련시키시겠습니까? 물론 그렇게 할 수는 있지만 GPU 속도와 용량의 급속한 향상과 경제 컴퓨팅에서 전기 및 기타 운영 비용의 중요성을 감안할 때 2년 된 클러스터를 사용하여 새 모델을 훈련하는 것이 정말 합리적일까요? ? 물론, 당신은 10배는 비용이 들고 더욱 발전된 기술 덕분에 20배는 더 뛰어난 성능을 가진, 방금 지은 최신 데이터 센터를 사용하고 싶을 것입니다. 문제는 어느 시점에서는 이러한 투자의 사전 비용을 상각하고 (바람직하게는 긍정적인) 운영 이익을 통해 회수해야 한다는 것입니다. 맞습니까?

시장은 AI에 너무 열광해서 이 점을 무시했고, OpenAI와 같은 회사는 처음부터 운영 손실을 누적하면서도 후속 투자에서 점점 더 높은 평가를 받았습니다(물론, 그들이 매우 빠르게 매출이 성장하는 것도 칭찬할 만한 일입니다) . 하지만 궁극적으로 전체 시장 주기 동안 이를 유지하려면 이러한 데이터 센터의 비용을 결국 회수해야 하며 이상적으로는 이익을 내야 합니다. 그래야 시간이 지남에 따라 다른 투자 기회와 리스크 조정 기준으로 경쟁할 수 있습니다. 경쟁하다 .

새로운 패러다임

좋아요, 이게 사전 훈련 확장의 법칙이에요. 그렇다면 이 "새로운" 확장 법칙은 무엇일까요? 글쎄요, 사람들이 작년에야 주목하기 시작한 게 바로 추론 시간 계산 확장이에요. 이 지점 이전에는 프로세스에서 사용하는 계산의 대부분이 모델을 만드는 사전 학습 계산입니다. 훈련된 모델이 있으면 해당 모델에 대한 추론을 수행하는 데 필요한 컴퓨팅 자원(예: 질문하거나 LLM이 대신 어떤 작업을 수행하도록 하는 것)은 적은 양의 컴퓨팅 자원만 사용합니다.

중요한 점은 총 추론 연산량(FLOPS, GPU 메모리 사용량 등 다양한 방식으로 측정)이 사전 학습 단계에 필요한 연산량보다 훨씬 낮다는 것입니다. 물론 모델의 컨텍스트 창 크기와 한 번에 생성하는 출력량을 늘리면 추론 계산량도 늘어납니다(연구자들은 이와 관련해 놀라운 알고리즘 개선을 이루었으며 처음에는 스케일링이 2차적일 것으로 예상했습니다) . 하지만 기본적으로 최근까지 추론 컴퓨팅의 강도는 일반적으로 학습 컴퓨팅보다 훨씬 낮았으며 처리되는 요청 수에 따라 대략 선형적으로 확장되었습니다. 예를 들어, ChatGPT 텍스트 완성에 대한 요청이 많을수록 더 많은 추론 컴퓨팅이 소모되었습니다.

작년에 혁신적인 Chain-of-Thought(COT) 모델이 도입되면서 가장 주목할 만한 것은 OpenAI의 플래그십 모델 O1입니다(하지만 최근에는 DeepSeek의 새로운 모델 R1도 이 기술을 사용하는데, 이에 대해서는 나중에 자세히 설명하겠습니다). 변경되었습니다. 이러한 새로운 COT 모델은 더 이상 모델에서 생성된 출력 텍스트의 길이에 따라 추론 계산량을 직접 조정하지 않습니다(더 큰 컨텍스트 창, 모델 크기 등에 따라 비례적으로 증가). 대신 중간 "논리 태그"을 생성합니다. 모델이 문제를 해결하거나 주어진 작업을 완료하려고 할 때 보관하는 일종의 "일시적인 기억"이나 "내면의 독백"이라고 할 수 있습니다.

이는 추론 방식에 있어 진정한 혁명을 의미합니다. 이제 내부적 사고 과정에서 사용하는 토큰이 많을수록 사용자에게 제공하는 최종 출력이 더 좋아집니다. 실제적으로는 작업자에게 작업을 완료할 수 있는 더 많은 시간과 리소스를 제공하여 작업을 다시 확인하고 동일한 기본 작업을 여러 가지 다른 방법으로 완료하고 결과가 동일한지 확인할 수 있도록 하는 것과 같습니다. 결과를 "플러그"합니다. 실제로 방정식을 풀 수 있는지 확인하기 위한 공식 등

이러한 접근 방식은 놀라울 정도로 효과적인 것으로 입증되었습니다. 이는 강화 학습의 오랫동안 기다려온 힘과 Transformer 아키텍처의 강력한 기능을 활용합니다. 이는 트랜스포머 모델의 가장 큰 약점 중 하나인 환각 경향을 직접적으로 해결합니다.

기본적으로, 각 단계에서 다음 태그 예측할 때 Transformers가 작동하는 방식은 초기 응답에서 잘못된 "경로"로 이동하기 시작하면 이야기를 구성하려는 변명하는 아이와 거의 같아진다는 것입니다. 사실, 그들은 말한 것이 결코 옳을 수 없다는 것을 깨닫기 위해 상식을 활용했어야 했지만요.

모델은 항상 내부 일관성을 유지하고 연속적으로 생성된 태그 이전 태그 과 컨텍스트에서 자연스럽게 따르도록 하려고 하기 때문에 경로를 수정하고 후퇴하는 데 어려움을 겪습니다. 추론 과정을 여러 중간 단계로 나누면 다양한 접근 방식을 시도해 보고 어떤 것이 효과적인지 확인하고 계속해서 진로 수정을 시도하고 다른 접근 방식을 시도해 보면 결국 터무니없는 소리를 하지 않는다는 상당히 높은 수준의 확신에 도달할 수 있습니다.

이 방법의 가장 특별한 점은 실제로 작동한다는 사실 외에도 사용하는 로직/COT 토큰이 많을수록 더 잘 작동한다는 것입니다. 갑자기 추가 스피너가 생기고 COT 추론 토큰의 수가 증가함에 따라(부동 소수점 연산과 메모리 측면에서 더 많은 추론 계산이 필요함) 정답을 제시할 확률이 높아집니다. 처음 실행할 때 오류가 없으며, 논리 문제의 해결책에는 추론 과정에서 명백히 잘못된 단계가 없습니다.

저는 Anthropic의 Claude3.5 Sonnet 모델이 Python 프로그래밍에 뛰어나지만(정말로 뛰어나죠) 길고 복잡한 코드를 생성해야 할 때마다 항상 실패한다는 것을 직접 경험 대량 바를 통해 말씀드릴 수 있습니다. 아니면 더 어리석은 실수도요. 이제 이러한 오류는 일반적으로 쉽게 수정할 수 있습니다. 사실, 일반적으로 Python 인터프리터에서 생성된 오류를 후속 추론을 위한 힌트로 사용할 수 있습니다(또는 보다 실용적으로 소위 linter를 사용하여 전체 "문제"를 린트할 수 있습니다. "코드 편집기가 코드에서 찾은" 오류가 코드에 설정되면 별도의 설명 없이 수정됩니다. 코드가 너무 길거나 복잡해지면 수정하는 데 더 많은 시간이 걸릴 수 있으며 수동으로 디버깅해야 할 수도 있습니다.

처음으로 OpenAI의 O1 모델을 사용해 보았을 때, 그것은 계시와 같았습니다. 코드가 처음에 얼마나 잘 작동하는지 놀랐습니다. 이는 COT 프로세스가 최종 응답 토큰이 모델에서 제공한 답변에 포함되기 전에 자동으로 문제를 찾아 해결하기 때문입니다.

실제로 OpenAI의 ChatGPT Plus 구독 서비스(월 20달러)에서 사용되는 O1 모델은 개발자 커뮤니티에서 큰 논란을 일으킨 새로운 ChatGPT Pro 구독 서비스(월 200달러 또는 10배 더 비쌈)와 동일합니다. . O1-Pro 모델에서 사용하는 모델은 본질적으로 동일하지만 주요 차이점은 O1-Pro가 응답하기 전에 더 오래 생각하고, 더 많은 COT 논리 태그 생성하고, 각 응답에 대량 추론 컴퓨팅 리소스를 소비한다는 것입니다.

이것은 매우 놀라운 일입니다. Claude3.5 Sonnet이나 GPT4o의 경우에도 약 400kb 이상의 맥락이 주어지더라도 매우 길고 복잡한 프롬프트에 응답을 시작하는 데 보통 10초도 걸리지 않고, 종종 5초도 걸리지 않습니다. O1-Pro에 대한 동일한 프롬프트는 응답을 받는 데 5분 이상 걸릴 수 있습니다(OpenAI는 대기하는 동안 생성하는 "추론 단계" 중 일부를 보여주지만, 중요한 점은 OpenAI가 상업적으로 동기를 부여받았다는 것입니다). 비밀 관련 이유로 , 우리는 그것이 생성하는 정확한 추론 태그 숨기고 대신 매우 단순화된 요약을 보여드리기로 결정했습니다.

상상할 수 있겠지만, 많은 경우 정확성이 중요합니다. 쉽게 틀릴 수 있는 답변을 제공하거나 환각을 포함하는 답변을 제공하는 것보다는 포기하고 사용자에게 그냥 할 수 없다고 말하는 것이 낫습니다. 사실적 또는 다른 그럴듯한 답변. 예를 들어 돈/거래, 의료, 법률 등에 관련된 모든 것을 말합니다.

기본적으로 추론 비용이 AI 시스템과 상호 작용하는 인간 지식 노동자의 전체 시간당 급여에 비해 무시할 수 있는 한, 이 경우 COT 계산을 호출하는 것이 완전히 당연한 일이 됩니다(주요 단점은 다음과 같습니다. 이로 인해 응답 대기 시간이 크게 증가할 수 있으므로 어떤 경우에는 대기 시간을 줄이거나 정확도나 올바름을 낮추어 응답을 더 빠르게 반복하는 것이 좋을 수 있습니다.

몇 주 전 인공지능 분야에서 OpenAI의 아직 출시되지 않은 O3 모델과 관련된 흥미로운 소식이 있었는데, 이 모델은 기존 AI 방법으로는 해결할 수 없다고 생각했던 다양한 문제를 해결할 수 있었습니다. 단기적으로. OpenAI는 매우 숙련된 전문 수학자에게도 어려운 극도로 어려운 "기초" 수학 문제를 포함한 이러한 가장 어려운 문제를 해결할 수 있었습니다. 이는 문제에 대량 의 컴퓨팅 리소스를 투입했기 때문입니다. 어떤 경우에는 컴퓨팅에 3,000달러 이상이 들었습니다. 단일 작업을 해결할 수 있는 능력(비교해보면 일반적인 Transformer 모델을 사용할 때, 사고 연쇄 없이 단일 작업에 대한 기존 추론 비용은 몇 달러 이상 들지 않을 가능성이 높음).

AI 천재가 아니더라도 이러한 발전으로 원래 사전 훈련된 스케일링 법칙과 완전히 다른 완전히 새로운 스케일링 법칙이 만들어진다는 사실을 알 수 있습니다. 이제 가능한 한 많은 컴퓨팅 리소스와 가능한 한 많은 수조 개의 고품질 교육 데이터를 교묘하게 활용하여 최상의 모델을 교육하고 싶지만 이것은 이 새로운 세계의 이야기의 시작일 뿐입니다. 이러한 모델에서 매우 높은 신뢰도로 추론하거나 일반적인 LL.M이 일으킬 수 있는 모든 잠재적 함정을 피하기 위해 "천재 수준"의 추론이 필요한 매우 어려운 문제를 해결하려면 엄청난 양의 컴퓨팅 리소스가 필요합니다. . 길을 잃었다.

하지만 왜 엔비디아가 모든 혜택을 누려야 할까?

당신이 나처럼 AI의 미래가 거의 상상할 수 없다고 믿는다 하더라도 여전히 "왜 한 회사가 이 기술에서 대부분의 이익을 얻어야 합니까?"라는 의문이 남습니다. 실제로 AI의 미래를 바꾼 중요한 신기술이 많이 있었습니다. 세계. 하지만 주요 승자는 초기 단계에서 가장 유망해 보였던 회사가 아닙니다. 라이트 형제의 비행기 회사가 이 기술을 발명하고 완성했다는 사실에도 불구하고, 이 회사는 여러 회사로 성장했지만 오늘날 그 시총 100억 달러에도 미치지 못합니다. 포드의 현재 시총 400억 달러로 상당한 수준이지만, 이는 엔비디아의 현재 시총 의 1.1%에 불과합니다.

이를 이해하려면 엔비디아가 왜 그렇게 큰 시장 점유율 가지고 있는지 이해해야 합니다. 사실, 그들은 GPU를 만드는 유일한 회사가 아닙니다. AMD는 괜찮은 성능의 GPU를 생산합니다. 데이터로 판단하면, 트랜지스터 수와 프로세스 노드는 Nvidia와 비슷합니다. 물론, AMD GPU는 Nvidia GPU만큼 빠르거나 발전되지는 않았지만, Nvidia GPU가 10배 빠르거나 그런 것은 아닙니다. 실제로 FLOP당 순수 비용 측면에서 AMD GPU는 Nvidia GPU의 절반 정도에 불과합니다.

DRAM 시장 등 다른 반도체 시장을 살펴보면, 실질적인 의미를 갖는 글로벌 기업 3개(삼성, 마이크론, SK하이닉스)에 불과한 시장 집중도가 높지만, DRAM 시장의 매출총이익률은 하단에서 마이너스를 기록했다. 사이클의 정점은 약 60%이고 평균은 20% 정도입니다. 비교해 보면, 엔비디아의 최근 분기 전체 매출 총 이익률은 약 75%였는데, 이는 이익율 낮고 상품화된 소비자용 3D 그래픽 제품의 영향으로 낮아졌습니다.

그러면 이것이 어떻게 가능한가? 글쎄요, 주된 이유는 소프트웨어와 관련이 있습니다. 즉, Linux에서 "그냥 작동하는" 잘 테스트되고 매우 안정적인 드라이버(Linux 드라이버가 품질이 낮고 불안정한 것으로 악명이 높은 AMD와는 달리)와 PyTorch와 같은 고도로 최적화된 오픈 소스 코드입니다. , Nvidia GPU에서 잘 실행되도록 조정되었습니다.

그뿐만 아니라, 프로그래머가 GPU에 최적화된 저수준 코드를 작성하는 데 사용하는 프로그래밍 프레임 인 CUDA는 Nvidia가 전적으로 소유하고 사실상의 표준이 되었습니다. GPU를 사용하여 작업을 가속화하는 방법을 알고 연봉 65만 달러 또는 해당 기술 세트를 갖춘 사람에게 적용되는 시급을 지불할 의향이 있는 매우 재능 있는 프로그래머를 고용하고 싶다면 아마도 다음과 같을 것입니다. 할 수 있다. CUDA를 사용하여 "생각"하고 작업할 수 있다.

소프트웨어의 이점 외에도 Nvidia의 또 다른 주요 이점은 상호 연결이라고 하는 것입니다. 기본적으로 수천 개의 GPU를 효율적으로 연결하여 오늘날 가장 진보된 기본 모델을 학습하는 데 활용할 수 있는 대역폭입니다. 간단히 말해, 효율적인 학습의 핵심은 다음 단계의 학습에 필요한 다음 데이터 배치를 받을 때까지 가만히 기다리지 않고, 항상 모든 GPU를 최대한 활용하는 것입니다.

대역폭 요구 사항이 매우 높아서 기존 데이터 센터 애플리케이션에 필요한 일반적인 대역폭을 훨씬 초과합니다. 이러한 상호 연결에는 기존의 네트워크 장비나 광섬유를 사용할 수 없습니다. 이를 사용하면 지연 시간이 너무 길어지고 모든 GPU를 지속적으로 가동하는 데 필요한 초당 테라바이트 규모의 대역폭을 제공할 수 없기 때문입니다.

엔비디아가 2019년에 이스라엘 기업 멜라녹스를 69억 달러에 인수한 것은 매우 현명한 결정이었으며, 이 인수를 통해 엔비디아는 업계를 선도하는 상호 연결 기술을 확보하게 되었습니다. 상호 연결 속도는 추론(COT 추론 포함)보다 훈련(수천 개의 GPU 출력을 동시에 활용해야 함) 중에 더 중요합니다. 추론에는 소수의 GPU만 필요합니다. 양자화된(압축된) 데이터를 저장하기에 충분한 VRAM만 있으면 됩니다. 훈련된 모델의 모델 가중치.

아마도 이것들은 Nvidia의 "해자"의 주요 구성 요소이며, Nvidia가 그토록 오랫동안 높은 이익율 마진을 유지할 수 있었던 이유입니다(또한 초과 이익을 대량 R&D에 적극적으로 재투자하는 "플라이휠 효과"도 있습니다) , 이를 통해 이들은 경쟁사보다 더 빠르게 기술을 개선할 수 있게 되며, 따라서 원시 성과 측면에서 항상 앞서나갑니다.

그러나 앞서 지적했듯이 다른 모든 것이 동일하다면 고객이 실제로 가장 중요하게 여기는 것은 종종 달러당 성능(장비의 사전 자본 지출 비용과 에너지 사용량, 즉 와트당 성능 모두 포함)이며 Nvidia의 GPU가 실제로 가장 빠르지만, FLOPS 단위로만 측정하면 가장 비용 효율적인 것은 아닙니다.

문제는 다른 요소들이 동일하지 않다는 것입니다. AMD 드라이버는 엉망이고, 인기 있는 AI 소프트웨어 라이브러리는 AMD GPU에서 잘 실행되지 않으며, 게임 외에서 AMD GPU에 정말 능숙한 GPU 전문가를 찾을 수 없습니다. (왜 그들이 귀찮게 해야 합니까?) , 시장에서 CUDA 전문가에 대한 수요가 더 커질 때? AMD의 열악한 상호 연결 기술로 인해 수천 개의 GPU를 효과적으로 연결할 수 없습니다. 이는 AMD가 하이엔드 데이터 센터에서 거의 사용되지 않는다는 것을 의미합니다. 기본적으로 경쟁력이 없고 단기적으로 좋은 개발 전망이 보이지 않습니다.

음, 엔비디아에게 일이 잘 될 것 같죠? 이제 왜 주가가 그렇게 높은지 알았겠죠! 하지만 다른 우려사항은 있을까? 글쎄요, 제 생각에는 크게 주목할 만한 문제는 많지 않은 것 같아요. 이러한 문제 중 일부는 지난 몇 년 동안 배경으로 숨어 있었지만, 성장 속도를 감안하면 영향은 미미했습니다. 하지만 그들은 상승할 가능성을 준비하고 있습니다. 다른 문제들은 최근에야 발생했으며(예: 지난 2주 동안) 단기 GPU 수요 증가 방향을 크게 바꿀 수 있습니다.

주요 위협

거시적으로는 이렇게 생각할 수 있습니다. 엔비디아는 꽤 오랫동안 매우 틈새 시장에서 운영되어 왔습니다. 경쟁자는 매우 제한적이며, 그 경쟁자들은 수익성이 높지 않거나 충분히 빠르게 성장하지 않습니다. 그들은 포즈를 취하지 않습니다. 실제 위협이 됩니다. 왜냐하면 엔비디아와 같은 시장 선도기업에 실질적인 압력을 가할 만큼의 자본이 없기 때문입니다. 게임 시장은 규모가 크고 성장하고 있지만, 천문학적 수준의 수익을 창출하거나 매년 인상적인 성장률을 기록하지는 못하고 있습니다.

2016~2017년경에 일부 대형 기술 기업들은 머신러닝(ML) 과 AI에 대한 채용과 지출을 늘리기 시작했지만, 전반적으로 이는 그들에게 큰 문제가 아니었습니다. 오히려 R&D 지출의 달착륙과 같았습니다. 하지만 인공지능 분야의 경쟁은 2022년 ChatGPT가 출시된 이후 본격적으로 시작되었습니다. 그로부터 불과 2년이 넘었지만, 발전 속도 면에서는 오랜 시간이 흐른 듯합니다.

갑자기 대기업들이 놀라운 속도로 수십억 달러를 투자할 준비가 되었습니다. Neurips, ICML과 같은 대규모 연구 컨퍼런스에 참석하는 연구자 수가 급증했습니다. 이전에는 금융 파생상품을 다루었을 똑똑한 학생들이 대신 Transformers를 다루었고, 팀을 관리하지 않는 독립적인 기여자(비경영 엔지니어)에 대한 수백만 달러 이상의 보상 패키지가 선도적인 AI 연구실의 표준이 되었습니다.

대형 크루즈선의 방향을 바꾸는 데는 시간이 오래 걸립니다. 매우 빠르게 움직여 수십억 달러를 지출하더라도 완전히 새로운 데이터 센터를 구축하고 모든 장비를 주문하는 데 1년 이상 걸릴 수 있습니다(리드 타임이 더 길어짐). 모든 설정과 디버깅이 완료되었습니다. 가장 똑똑한 프로그래머조차도 모든 것에 정통하고 기존 코드베이스와 인프라에 익숙해지는 데는 오랜 시간이 걸립니다.

하지만 이 분야에 투자된 돈과 인력, 에너지는 정말 천문학적 수준이라고 상상해 보세요. 엔비디아는 모든 기업의 가장 큰 타겟입니다. 왜냐하면 엔비디아는 현재 수익에 가장 크게 기여하는 기업이기 때문입니다. 하지만 AI가 우리 삶을 지배하는 미래에는 그렇지 않을 것입니다.

따라서 가장 중요한 결론은 "시장은 항상 방법을 찾을 것"이라는 것입니다. 그들은 장애물을 우회하고 엔비디아의 참호를 통합하기 위해 완전히 새로운 아이디어를 사용하여 하드웨어를 제조하는 대안적이고 근본적으로 혁신적인 새로운 방법을 찾을 것입니다.

하드웨어 수준의 위협

예를 들어 Cerebras의 소위 "웨이퍼 스케일" AI 교육 칩은 단일 다이에 수십 배 더 많은 트랜지스터와 코어를 포함하는 절대적으로 거대한 칩을 위해 전체 300mm 실리콘 웨이퍼를 사용합니다(최근 블로그 게시물을 참조하여 방법을 알아보세요). (과거에 이 접근 방식이 경제적으로 실용적이지 못했던 이유인 수확량 문제를 해결했습니다).

이를 맥락에 맞게 설명하자면 Cerebras의 최신 WSE-3 칩을 Nvidia의 플래그십 데이터 센터 GPU인 H100과 비교해보면 Cerebras 칩의 총 다이 면적은 46,225제곱밀리미터인 반면 H100의 총 다이 면적은 814제곱밀리미터에 불과합니다. 업계 기준으로 H100은 1,000제곱피트입니다. 그 자체로 거대한 칩입니다. 57배나 됩니다! H100처럼 칩에 132개의 "스트리밍 멀티프로세서" 코어가 있는 반면, Cerebras 칩은 약 90만 개의 코어를 가지고 있습니다(물론, 각 코어는 더 작고 전력도 적지만 비교하면 이 숫자는 여전히 매우 많습니다). 구체적으로 인공지능 분야에서 Cerebras 칩의 FLOPS 컴퓨팅 파워는 단일 H100 칩의 약 32배에 달합니다. H100 칩의 가격이 4만 달러에 가깝기 때문에 WSE-3 칩도 저렴하지 않을 수 있습니다.

그럼, 이것의 요점은 무엇입니까? Cerebras는 유사한 접근 방식으로 Nvidia에 정면으로 맞서거나 Mellanox의 상호 연결 기술과 일치하려고 시도하는 대신 상호 연결 문제를 해결하기 위해 급진적인 새로운 접근 방식을 취하고 있습니다. 모든 것이 동일한 매우 큰 칩에서 실행될 때 프로세서가 대역폭이 작을수록 프로세서 간 대역폭 문제의 중요성이 낮아집니다. 하나의 거대한 칩이 수많은 H100을 대체할 수 있기 때문에 동일한 수준의 상호연결도 필요하지 않습니다.

더욱이 세레브라스 칩은 인공지능 추론 작업에서도 매우 좋은 성능을 보입니다. 사실, 오늘 바로 여기에서 무료로 사용해 보고 Meta의 매우 유명한 Llama-3.3-70B 모델을 사용해 보세요. 응답속도는 기본적으로 즉각적이며 초당 약 1500토큰입니다. 비교적 관점에서 볼 때, 초당 30개 토큰 이상의 속도는 ChatGPT 및 Claude와 비교할 때 사용자에게 비교적 빠르고, 초당 10개 토큰이라도 기본적으로 Read it 중에 응답을 생성하기에 충분히 빠릅니다.

Cerebras가 이런 일을 하는 유일한 회사는 아니며, Groq(Elon Musk의 X AI가 훈련시킨 Grok 모델 계열과 혼동하지 말 것)와 같은 다른 회사도 있습니다. Groq는 동일한 기본적인 문제를 해결하기 위해 또 다른 혁신적인 접근 방식을 취합니다. 그들은 Nvidia의 CUDA 소프트웨어 스택과 직접 경쟁하기보다는 딥 러닝 모델에 필요한 정확한 수학적 연산에 특화된 소위 "텐서 처리 장치"(TPU)를 개발했습니다. 해당 칩은 "결정론적 컴퓨팅"이라는 개념을 중심으로 설계되었습니다. 즉, 기존 GPU와 달리 해당 칩은 항상 완전히 예측 가능한 방식으로 작업을 수행합니다.

이는 사소한 기술적 세부 사항처럼 들릴 수 있지만, 실제로는 칩 설계와 소프트웨어 개발에 엄청난 영향을 미칩니다. 타이밍이 완전히 결정적이므로 Groq는 기존 GPU 아키텍처에서는 할 수 없는 방식으로 칩을 최적화할 수 있습니다. 그 결과, 지난 6개월 이상 동안 그들은 Llama 모델 계열과 기타 오픈 소스 모델에 대해 초당 500토큰 이상의 추론 속도를 보여주었으며, 이는 기존 GPU 설정으로 달성할 수 있는 속도를 훌쩍 뛰어넘는 수준입니다. Cerebras와 마찬가지로 이 제품도 지금 상장 하며, 여기에서 무료로 사용해 볼 수 있습니다.

Groq는 "추측 디코딩" 기능이 있는 Llama3 모델을 사용하여 초당 1,320개의 토큰을 생성할 수 있었습니다. 이는 Cerebras와 비슷하며 일반 GPU를 사용하는 성능을 훨씬 능가합니다. 이제 사용자들이 ChatGPT의 속도(초당 1000개 토큰 미만)에 상당히 만족하는 듯할 때, 초당 1000개 이상의 토큰을 달성하는 의미가 무엇인지 묻고 싶을 수도 있습니다. 사실, 그것은 중요합니다. 즉각적인 피드백을 받으면 더 빠르게 반복할 수 있고 인간 지식 근로자처럼 집중력을 잃지 않습니다. API를 통해 모델을 프로그래밍 방식으로 사용하면 다단계 추론(이전 단계의 출력이 후속 단계의 힌트/추론을 위한 입력으로 사용됨)이 필요하거나 낮은 수준의 추론이 필요한 완전히 새로운 클래스의 애플리케이션을 활성화할 수 있습니다. 콘텐츠 검토, 사기 감지, 동적 가격 책정 등과 같은 지연 응답.

하지만 근본적으로, 요청에 더 빨리 대응할수록 사이클이 더 빨리 진행되고 하드웨어가 더 바빠집니다. Groq의 하드웨어는 비싸서 단일 서버 하나에 200만~300만 달러가 들지만, 수요가 높아 하드웨어를 계속 사용한다면 완료된 요청당 비용을 크게 줄일 수 있습니다.

Nvidia의 CUDA와 마찬가지로 Groq의 장점 중 상당 부분은 독점 소프트웨어 스택에서 나옵니다. 그들은 Meta, DeepSeek, Mistral 등 다른 회사가 개발해 무료로 공개한 오픈소스 모델을 가져와 특정 하드웨어에서 더 빠르게 실행되도록 특별한 방식으로 적용할 수 있었습니다.

Cerebras와 마찬가지로 그들은 프로세스의 특정 측면을 최적화하기 위해 다른 기술적 결정을 내렸고, 그 결과 일을 처리하는 방식이 완전히 달라졌습니다. 예를 들어 Groq를 살펴보겠습니다. 그들은 훈련이 아닌 추론 수준 컴퓨팅에 전적으로 집중합니다. 모든 특수 하드웨어와 소프트웨어는 이미 훈련된 모델에서 추론을 수행할 때만 엄청난 속도와 효율성 이점을 제공합니다.

그러나 사람들이 기대하는 다음의 큰 확장 법칙이 추론 수준 컴퓨팅이고 COT 모델의 가장 큰 단점이 응답을 하기 전에 모든 중간 논리 태그 생성해야 하기 때문에 과도한 지연이 발생한다는 점이라면 추론 컴퓨팅만 하는 회사라 할지라도 속도와 효율성이 엔비디아를 훨씬 앞지른다면, 앞으로 몇 년 내에 심각한 경쟁 위협이 될 것입니다. 최소한 Cerebras와 Groq는 현재 주가 평가에 내재된, 향후 2~3년간 Nvidia의 매출 성장에 대한 지나치게 높은 기대치를 잠식할 수 있습니다.

이러한 특히 혁신적이지만 상대적으로 알려지지 않은 스타트업 경쟁자 외에도 Nvidia의 가장 큰 고객 중 일부는 AI 교육 및 추론 워크로드를 위해 특별히 맞춤 칩을 구축해 온 심각한 경쟁자입니다. 이 중 가장 주목할 만한 것은 2016년부터 자체적인 TPU를 개발해 온 구글입니다. 흥미로운 점은 Google이 TPU를 외부 고객에게 잠시 판매한 적이 있지만 Google은 지난 몇 년 동안 모든 TPU를 내부적으로 사용해 왔으며 현재는 TPU 하드웨어의 6세대를 사용하고 있다는 것입니다.

Amazon은 Trainium2와 Inferentia2라는 자체 맞춤형 칩도 개발하고 있습니다. Amazon은 수십억 달러 규모의 Nvidia GPU를 갖춘 데이터 센터를 건설하고 있으며, 동시에 자체 칩을 사용하는 다른 데이터 센터에도 수십억 달러를 투자하고 있습니다. 그들은 Anthropic을 위해 온라인으로 가져오는 클러스터에 40만 개가 넘는 칩이 들어 있습니다.

Amazon은 내부 AI 모델 개발을 완전히 망쳐 놓고, 궁극적으로 경쟁력이 없는 모델에 대량 내부 컴퓨팅 리소스를 낭비했다는 비판을 받았지만, 맞춤형 칩은 또 다른 문제입니다. 마찬가지로, 그들은 반드시 자사 칩이 엔비디아 칩보다 더 좋거나 더 빠를 필요는 없습니다. 그들에게는 손익분기점에 도달할 만큼 좋은 칩만 필요하며, Nvidia가 H100 업무 에서 벌어들이고 있는 ~90%+의 총 마진은 필요 없습니다.

OpenAI는 또한 맞춤형 칩을 개발할 계획을 발표했으며, Microsoft와 함께 Nvidia 데이터센터 하드웨어의 가장 큰 사용자인 것으로 보입니다. 마치 그것만으로도 충분하지 않은 듯이, Microsoft에서도 자체 맞춤형 실리콘을 발표했습니다!

세계에서 가장 가치 있는 기술 회사인 Apple은 수년간 매우 혁신적이고 파괴적인 맞춤형 칩 업무 으로 기대를 뒤집었습니다. 업무 와트당 성능 면에서 Intel과 AMD를 철저히 이깁니다. CPU와 와트당 성능이 가장 중요한 요소입니다. 모바일(휴대폰/태블릿/노트북) 애플리케이션에서. 그들은 수년간 자체적으로 설계한 GPU와 "신경 프로세서"를 생산해 왔지만 고급 소프트웨어 기반 이미지 처리와 같은 맞춤형 애플리케이션 외부에서 해당 칩의 유용성을 아직 실제로 입증하지 못했습니다. 아이폰 카메라에서.

Apple의 초점은 모바일 우선, 소비자 중심 및 "엣지 컴퓨팅"에 초점을 맞추고 있어 다른 플레이어와 다소 다르게 보이지만 Apple이 OpenAI와의 새로운 계약에 충분한 돈을 투자하게 되면 큰 도움이 될 수 있습니다. 회사에. 그들이 iPhone 사용자에게 AI 서비스를 제공한다면, 추론/훈련을 위한 자체 맞춤형 칩을 만드는 방법을 연구하는 팀이 있을 것이라고 상상해야 합니다(비밀을 감안하면, 아마 직접 알 수는 없을 겁니다!) .

이제 Nvidia의 하이퍼스케일러 고객 기반이 강력한 거듭제곱 분포를 보인다는 것은 비밀이 아니며, 소수의 최상위 고객이 대부분의 고마진 매출을 차지하고 있습니다. 각 VIP 고객이 AI 훈련 및 추론을 위해 자체 맞춤형 칩을 구축하고 있을 때, 우리는 이 업무 의 미래에 대해 어떻게 생각해야 할까요?

이러한 질문에 대해 생각해 볼 때, 매우 중요한 사실 하나를 기억해야 합니다. 엔비디아는 대체로 지적 재산권에 기반을 둔 회사입니다. 그들은 자체적으로 칩을 만들지 않습니다. 이러한 놀라운 장치를 만드는 정말 특별한 비결은 최첨단 공정 노드 칩을 제조하는 데 사용되는 특수 EUV 리소그래피 장비를 만드는 TSMC와 ASML에서 나올 수도 있습니다. 이는 TSMC가 충분한 사전 투자를 하고 특정 수량을 보장하는 모든 고객에게 최첨단 칩을 판매할 것이기 때문에 매우 중요합니다. 그들은 그 칩이 비트코인 ​​채굴 용 ASIC인지, 그래픽 프로세서인지, 열가소성 폴리우레탄인지, 휴대폰 시스템 온 칩인지 등에 관심이 없습니다.

엔비디아의 수석 칩 설계자들이 매년 얼마나 많은 수입을 올리는지 생각해보면, 이런 기술 거대 기업들은 분명 최고 인재 중 일부를 끌어들여 회사를 떠나게 할 만큼 충분한 현금과 주식을 제공할 수 있을 것입니다. 일단 팀과 리소스가 있으면 2~3년 안에 혁신적인 칩을 설계할 수 있습니다(H100만큼 50%도 발전되지 않았을 수도 있지만 Nvidia의 매출 총이익으로 인해 성장할 여지가 많습니다). TSMC 덕분에 전환할 수 있습니다. 이러한 칩은 Nvidia와 정확히 동일한 공정 노드 기술을 사용하여 실제 실리콘으로 만들어졌습니다.

소프트웨어 위협

이러한 닥쳐오는 하드웨어 위협이 충분히 심각한 것처럼, 지난 몇 년 동안 소프트웨어 분야에서도 일부 개발이 있었는데, 시작은 느렸지만 이제는 추진력을 얻고 있으며 Nvidia의 CUDA 소프트웨어 지배력에 심각한 위협이 될 수 있습니다. 첫 번째는 AMD GPU용 Linux 드라이버가 끔찍하다는 것입니다. AMD가 수년에 걸쳐 이런 드라이버가 심각하게 손상되도록 방치한 채 대량 낭비하는 걸 지켜보았던 걸 기억하시나요?

흥미롭게도 악명 높은 해커 George Hotz(10대 시절에 최초의 iPhone을 제일브레이킹한 것으로 유명함)는 현재 자율주행 스타트업 Comma.ai와 AI 컴퓨터 회사 Tiny Corp의 CEO입니다. 이 회사는 또한 오픈소스 TinyGrad AI 소프트웨어 프레임 개발했습니다. 최근 AMD의 형편없는 드라이버에 지쳐서 TinyBox AI 컴퓨터에 저렴한 AMD GPU를 사용하고 싶다고 발표했습니다(여러 모델이 있는데, 일부는 Nvidia GPU를 사용하고 다른 일부는 AMD GPU를 사용합니다).

사실 그는 AMD의 도움 없이 AMD GPU용 자체 맞춤 드라이버와 소프트웨어 스택을 만들었습니다. 2025년 1월 15일 그는 회사의 X 계정에서 "완전 자율 AMD까지 30분 남았습니다."라고 트윗했습니다. RDNA3 어셈블러는 바로 한 걸음 떨어져 있습니다. 우리는 자체 드라이버, 런타임, 라이브러리, 시뮬레이터를 보유하고 있습니다. (모두 약 12,000줄!) 그의 실적과 기술을 감안할 때, 아마도 몇 달 안에 완료될 것입니다. 모두 작동하며, 현재 기업들이 Nvidia GPU를 사용해야 하는 것과 달리, AMD GPU를 사용하면 다양한 애플리케이션에 활용할 수 있는 흥미로운 가능성이 많이 있습니다.

글쎄요, 이건 AMD의 드라이버일 뿐이고 아직 완성되지 않았어요. 그 밖에는요? 그런데 소프트웨어에는 영향이 훨씬 더 큰 다른 분야도 있습니다. 첫째, 많은 대형 기술 회사와 오픈 소스 소프트웨어 커뮤니티가 현재 보다 일반적인 AI 소프트웨어 프레임 개발하기 위해 협력하고 있으며, CUDA는 그 중 여러 "컴파일 대상" 중 하나에 불과합니다.

즉, 고수준 추상화를 사용하여 소프트웨어를 작성하면 시스템 자체가 해당 고수준 구조를 자동으로 CUDA에서 매우 잘 실행되는 매우 최적화된 저수준 코드로 변환할 수 있습니다. 그러나 이것은 더 높은 수준의 추상화에서 이루어지기 때문에 다양한 공급업체(예: 주요 기술 회사)의 대량 다른 GPU 및 TPU에서 잘 실행되는 저수준 코드로 쉽게 컴파일될 수 있습니다. 작은 조각.

이러한 프레임 의 가장 주목할 만한 예로는 MLX(주로 Apple에서 후원), Triton(주로 OpenAI에서 후원), JAX(Google에서 개발)가 있습니다. MLX는 Apple Silicon에서 효율적으로 실행되는 PyTorch와 유사한 API를 제공하기 때문에 특히 흥미롭습니다. 이러한 추상화 계층을 통해 AI 워크로드가 완전히 다른 아키텍처에서 실행될 수 있는 방법을 보여줍니다. 한편, 트리톤은 개발자들이 각 플랫폼의 저수준 세부 사항을 이해하지 않고도 다양한 하드웨어 대상에서 실행되도록 컴파일할 수 있는 고성능 코드를 작성할 수 있게 해주기 때문에 인기가 높아지고 있습니다.

이러한 프레임 사용하면 개발자가 강력한 추상화를 사용하여 코드를 작성한 다음 대량 플랫폼에 대해 자동으로 컴파일할 수 있습니다. 더 효율적이라고 생각하지 않으세요? 이러한 접근 방식은 실제로 코드를 실행할 때 더 많은 유연성을 제공합니다.

1980년대에 가장 인기 있고 베스트셀러인 소프트웨어는 모두 손으로 조정한 어셈블리 언어로 작성되었습니다. 예를 들어, PKZIP 압축 유틸리티는 속도를 극대화하기 위해 수작업으로 제작되었으며, 당시 가장 최적화된 컴파일러를 사용하여 컴파일된 표준 C 프로그래밍 언어로 작성된 코드 버전은 수작업으로 조정된 어셈블리 코드만큼 빠르게 실행될 수 있습니다. . 반. 이는 WordStar, VisiCalc 등과 같은 다른 인기 소프트웨어 패키지에도 해당됩니다.

시간이 지남에 따라 컴파일러는 더욱 강력해졌고 CPU 아키텍처가 변경될 때마다(예: Intel이 486을 출시하고 Pentium으로 변경 등) 수작업으로 작성한 어셈블러 프로그램은 일반적으로 폐기되고 다시 작성되어야 했습니다. 가장 최근에 사용되는 것들입니다. 똑똑한 프로그래머는 이 일을 할 수 있는 사람들입니다(CUDA 전문가가 "일반" 소프트웨어 개발자보다 일자리 시장에서 유리한 것처럼). 결국, 상황이 수렴되었고 핸드 어셈블러의 속도적 이점은 C나 C++와 같은 고급 언어로 코드를 작성하는 것의 유연성에 크게 밀렸습니다. 고급 언어는 컴파일러에 의존하여 코드가 주어진 CPU에서 최적으로 실행되도록 했습니다.

요즘은 어셈블리 언어로 새로운 코드를 작성하는 사람이 거의 없습니다. 저는 비슷한 변화가 결국 AI 학습 및 추론 코드에도 일어날 것이라고 믿습니다. 그 이유는 비슷합니다. 컴퓨터는 최적화에 능숙하고, 유연성과 개발 속도가 점점 더 중요한 요소가 되고 있기 때문입니다. 특히 하드웨어 비용이 상당히 절감된다면 더욱 그렇습니다. 엔비디아 수익의 90% 이상을 창출하는 "CUDA 세금"을 계속해서 내지 않아도 되기 때문입니다.

그러나 큰 변화가 일어날 수 있는 또 다른 영역은 CUDA 자체가 결국 고급 추상화, 즉 숙련된 개발자가 사용자 정의 그래픽을 만드는 데 사용할 수 있는 Verilog(칩 레이아웃을 설명하는 산업 표준)와 유사한 "사양 언어"가 될 수 있다는 것입니다. 대규모 병렬 처리를 포함하는 고급 알고리즘을 설명합니다(이미 이에 익숙하고 잘 구성되어 있으며 범용 언어이기 때문에 등). 그러나 일반적인 관행과 달리 코드는 Nvidia GPU에서 사용하도록 컴파일되지 않습니다. 소스 코드로 LLM에 입력되면 LLM은 이를 새로운 Cerebras 칩, 새로운 Amazon Trainium2, 새로운 Google TPUv6가 이해할 수 있는 모든 저수준 코드로 변환할 수 있습니다. 이는 여러분이 생각하는 것만큼 먼 미래가 아닙니다. OpenAI의 최신 O3 모델을 사용하면 이미 가능할 수 있으며, 1~2년 내에 일반적으로 이용 가능할 것입니다.

이론적 위협

아마도 가장 충격적인 사건은 지난 몇 주 동안 일어났을 것입니다. 이 소식은 AI 세계를 뿌리째 뒤흔들었고 주요 매체에서는 전혀 언급하지 않았지만 트위터 지식인들 사이에서는 이슈 주제가 되었습니다. DeepSeek이라는 중국 스타트업이 두 가지 새로운 모델을 출시했는데 성능 수준은 대략 다음과 같습니다. OpenAI와 Anthropic의 최고 모델과 비교 가능합니다(Meta Llama3 모델 및 Mistral과 같은 다른 소규모 오픈소스 모델을 능가). 이 모델은 DeepSeek-V3(기본적으로 GPT-4o 및 Claude3.5 Sonnet에 대한 응답) 및 DeepSeek-R1(기본적으로 OpenAI의 O1 모델에 대한 응답)로 명명되었습니다.

이 모든 것이 왜 이토록 충격적인가? 첫째, DeepSeek는 직원이 200명도 안 되는 소규모 회사로 알려져 있습니다. 그들은 TwoSigma나 RenTec과 비슷한 양적 거래 헤지펀드로 시작했다고 하지만 중국이 이 부문에 대한 규제를 강화한 후 수학과 엔지니어링 전문지식을 활용해 인공지능 연구로 방향을 전환했습니다. 하지만 사실 그들은 DeepSeek-V3와 DeepSeekR1이라는 두 가지 매우 자세한 기술 보고서를 발표했습니다.

이러한 보고서는 매우 기술적인 내용이어서 선형대수에 대해 아무것도 모른다면 이해하기 어려울 수 있습니다. 하지만 여러분이 시도해야 할 것은 AppStore에서 DeepSeek 앱을 무료로 다운로드하고 Google 계정으로 로그인하여 설치한 다음 사용해 보는 것입니다(Android에도 설치할 수 있음). 또는 다음을 사용하여 데스크톱에서 직접 사용해 보세요. 브라우저. Thought Chain(R1 모델)을 활성화하고 기술 보고서의 일부를 간단한 언어로 설명하려면 "DeepThink" 옵션을 선택해야 합니다.

이것은 또한 당신에게 중요한 것을 알려줍니다:

우선, 이 모델은 완전히 합법적입니다. AI 벤치마크에는 종종 조작된 엉터리 내용이 많아 모델이 벤치마크에서는 좋은 성능을 보이지만 실제 테스트에서는 낮은 성능을 보입니다. 이 분야에서 가장 큰 원흉은 의심할 여지 없이 구글입니다. 그는 항상 자사의 LLM이 얼마나 놀라운지 자랑하지만, 실제로 이러한 모델은 실제 테스트에서 끔찍한 성능을 보이며 가장 간단한 작업도 안정적으로 완료할 수 없으며, 어려운 코딩 작업은 더더욱 그렇습니다. 반면 DeepSeek 모델은 일관되고 강력하게 반응하여 OpenAI 및 Anthropic 모델과 동일한 수준에 도달했습니다.

두 번째로, DeepSeek은 모델 품질뿐만 아니라, 더 중요하게도 모델 학습 및 추론 효율성 측면에서 상당한 진전을 이루었습니다. DeepSeek은 하드웨어에 매우 밀접하게 접근하고 독특하고 매우 똑똑한 최적화를 결합함으로써 획기적으로 더 효율적인 방식으로 GPU를 사용하여 이러한 놀라운 모델을 훈련할 수 있습니다. 일부 측정 결과에 따르면 DeepSeek은 다른 첨단 모델보다 약 45배 더 효율적입니다.

DeepSeek에서는 DeepSeek-V3의 총 훈련 비용이 500만 달러가 조금 넘었다고 주장합니다. OpenAI, Anthropic 등의 회사의 기준에 비추어 보면 이는 아무것도 아닙니다. 이러한 회사는 이미 2024년에 단일 모델 학습 비용이 1억 달러를 초과하는 수준에 도달했습니다.

어떻게 이런 일이 가능한가? 이 작은 중국 회사가 100배 더 많은 리소스, 직원, 급여, 자본, GPU 등을 보유한 우리의 선도적인 AI 연구실의 가장 똑똑한 사람들을 완전히 따돌릴 수 있는 게 어떻게 가능할까? 바이든의 GPU 수출 제한으로 인해 중국이 약화되지 않을까요? 네, 세부 사항은 매우 기술적이긴 하지만 적어도 일반적인 용어로 설명할 수는 있을 겁니다. 아마도 DeepSeek의 비교적 약한 GPU 처리 능력이 창의성과 독창성의 핵심 요인이었을 것입니다. 필요는 발명의 어머니이기 때문입니다.

주요 혁신 중 하나는 고급 혼합 정밀도 학습 프레임 로, 학습 과정 전반에 걸쳐 8비트 부동 소수점 숫자(FP8)를 사용할 수 프레임. 대부분의 서양 AI 연구실은 학습을 위해 "완전 정밀도" 32비트 숫자를 사용합니다(이것은 기본적으로 인공 뉴런의 출력을 설명할 때 가능한 그래디언트 수를 지정합니다. FP8의 8비트는 생각보다 더 광범위한 숫자를 저장할 수 있습니다. —일반 정수의 256가지 다른 크기의 양으로 제한되지 않고 매우 작고 매우 큰 숫자를 저장하기 위해 영리한 수학적 트릭을 사용합니다. (물론 32비트보다 정확도는 떨어집니다.) 가장 큰 단점은 FP32가 숫자를 저장할 수 있는 반면 FP8은 광범위한 범위에서 놀라운 정밀도를 제공하지만, 메모리를 절약하고 성능을 개선하기 위해 일부 정밀도를 희생하면서도 많은 AI 워크로드에 대해 충분한 정확도를 유지합니다.

DeepSeek은 활성화를 위해 숫자를 작은 덩어리로 나누고, 가중치를 위한 덩어리로 나누는 똑똑한 시스템을 개발하고, 네트워크의 주요 지점에서 고정밀 계산을 전략적으로 사용하여 이 문제를 해결했습니다. 먼저 고정밀도로 학습한 다음 압축하는(과정에서 일부 품질이 저하됨) 다른 랩과 달리 DeepSeek의 FP8 네이티브 접근 방식은 성능 저하 없이 대량 메모리를 절약할 수 있음을 의미합니다. 수천 개의 GPU로 훈련하는 경우 GPU당 메모리 요구 사항이 극적으로 줄어들어 전체적으로 필요한 GPU 수가 크게 줄어듭니다.

또 다른 중요한 혁신은 다중 태그 예측 시스템입니다. 대부분의 Transformer 기반 LLM 모델은 한 번에 하나의 태그 씩 다음 태그 예측하여 추론을 수행합니다.

DeepSeek은 단일 태그 예측의 품질을 유지하면서 여러 태그 예측하는 방법을 알아냈습니다. 그들의 방법은 이러한 추가적인 태그 예측에서 약 85-90%의 정확도를 달성하여 품질을 크게 떨어뜨리지 않고도 추론 속도를 효과적으로 두 배로 높였습니다. 똑똑한 점은 예측의 전체 인과 사슬을 유지하여 모델이 단순히 추측하는 것이 아니라 구조화되고 상황에 맞는 예측을 한다는 것입니다.

그들의 가장 혁신적인 개발 중 하나는 MLA(Multi-Latent Attention)라고 불리는 것입니다. 이는 키-값 인덱싱이라고 불리는 것을 처리하는 데 있어서 획기적인 진전이었는데, 이는 기본적으로 Transformer 아키텍처의 어텐션 메커니즘에서 개별 토큰이 표현되는 방식입니다. 기술적인 관점에서 보면 이는 다소 지나치게 복잡하지만 이러한 KV 인덱스는 학습 및 추론 중 VRAM의 주요 용도 중 하나이며 학습을 위해 수천 개의 GPU를 동시에 사용해야 하는 이유 중 하나라는 점을 언급하는 것으로 충분합니다. 이 모델들은 각각 단일 GPU를 탑재하고 있습니다. GPU는 최대 96GB의 VRAM을 가지고 있으며, 이 인덱스들은 그 모든 메모리를 소모할 것입니다.

MLA 시스템은 필수 정보를 캡처하는 동시에 메모리 사용량을 줄이는 압축 버전의 색인을 저장하는 방법을 찾아냈습니다. 가장 좋은 점은 이 압축이 모델의 학습 방식에 직접 내장되어 있다는 것입니다. 모델이 수행해야 하는 별도의 단계가 아니라 종단 간 학습 파이프라인에 직접 내장되어 있습니다. 즉, 전체 메커니즘은 "미분 가능"하며 표준 최적화 도구를 사용하여 직접 학습할 수 있습니다. 이것이 효과적인 이유는 이러한 모델이 궁극적으로 찾는 기본 데이터 표현이 소위 말하는 "환경 차원"보다 훨씬 낮기 때문입니다. 그러므로 모든 사람이 기본적으로 그렇게 하고 있다 하더라도 전체 KV 인덱스를 저장하는 것은 낭비입니다.

실제로 필요한 것보다 더 많은 데이터를 저장함으로써 대량 공간을 낭비할 뿐만 아니라, 학습 메모리 사용량과 효율성이 크게 증가하게 됩니다(다시 말해서, 세계적 수준의 모델을 학습하는 데 필요한 GPU 수가 크게 감소합니다). 실제로 모델 품질을 향상시킬 수 있습니다.왜냐하면 훈련 데이터의 노이즈에 적응하는 데 용량을 낭비하는 대신 모델이 정말로 중요한 것에 집중할 수 있도록 하는 "조절기" 역할을 할 수 있기 때문입니다. 따라서 대량 메모리를 절약할 수 있을 뿐만 아니라, 모델 성능도 향상될 수 있습니다. 최소한 메모리 대량 절약하는 대가로 성능에 심각한 영향을 미치지는 않습니다. 이는 AI 훈련에서 종종 직면하는 트레이드오프입니다.

또한 DualPipe 알고리즘과 맞춤형 통신 커널을 통해 GPU 통신 효율성 면에서도 상당한 진전을 이루었습니다. 이 시스템은 계산과 통신을 지능적으로 중첩하여 작업 간의 GPU 리소스 균형을 신중하게 조절합니다. 통신을 위해 GPU의 스트리밍 멀티프로세서(SM) 20개 정도만 필요하고 나머지는 계산에 사용됩니다. 결과적으로 일반적인 훈련 설정보다 GPU 활용도가 훨씬 높아졌습니다.

그들이 한 또 다른 매우 똑똑한 일은 MOE(Mixture of Experts) Transformer 아키텍처라 불리는 것을 사용한 것이었는데, 여기서 핵심적인 혁신은 부하 분산에 관한 것이었습니다. 아마 다들 아시겠지만, AI 모델의 크기나 용량은 종종 모델이 포함하는 매개변수의 수로 측정됩니다. 매개변수는 모델의 일부 속성을 저장하는 숫자일 뿐입니다. 예를 들어, 특정 인공 뉴런의 "가중치" 또는 다른 뉴런에 대한 중요도 또는 컨텍스트에 따른 특정 태그 의 중요도(예: "주의 메커니즘"). 중요성 등.

Meta의 최신 Llama3 모델은 10억 개의 매개변수 버전(가장 작은 버전), 70억 개의 매개변수 모델(가장 일반적으로 사용됨), 심지어 405억 개의 매개변수를 가진 대형 모델 등 여러 크기로 제공됩니다. 이 가장 큰 모델은 대부분 사용자에게 실용성이 제한적입니다. 허용 가능한 속도로 추론을 실행하려면 컴퓨터에 수만 달러 상당의 GPU가 필

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
1
코멘트
Followin logo