소라의 산수 수학

이 기사는 기계로 번역되었습니다
원문 표시
Sora는 비디오 생성의 품질과 기능에서 상당한 발전을 이뤘을 뿐만 아니라 향후 추론 세션에서 GPU에 대한 수요가 크게 증가할 수 있음을 시사합니다.

마티아스 플래퍼트 글

편집: 시치, 라비다, 티안이

지난달 동영상 생성 모델인 Sora를 출시한지 얼마 되지 않은 어제, OpenAI는 Sora를 사용한 크리에이티브 작업자들의 놀라운 결과물을 연이어 공개했습니다. 소라는 품질 면에서 지금까지 가장 강력한 동영상 생성 모델이며, 소라의 등장은 크리에이티브 산업에 직접적인 영향을 미칠 뿐만 아니라 로봇 공학 및 자율주행 분야의 주요 문제를 해결하는 데에도 큰 영향을 미칠 것입니다.

OpenAI는 소라에 대한 기술 보고서를 발표했지만, 보고서의 기술적 세부 사항은 매우 제한적입니다. 이 글은 OpenAI에서 근무하며 코덱스 프로젝트에 참여했던 팩토리얼 펀드의 마티아스 플래퍼트(Matthias Plappert)의 연구를 바탕으로 소라의 주요 기술적 세부 사항, 모델의 강점, 크리에이티브 산업에 미치는 영향에 대해 논의한 내용을 정리한 글입니다. 이 연구에서 마티아스는 Sora의 주요 기술적 세부 사항, 모델의 혁신과 그 의미를 살펴보고, Sora와 같은 비디오 생성 모델의 컴퓨팅 파워 요구 사항을 분석합니다. 마티아스는 비디오 생성에 대한 의존도가 점점 더 높아지면서 추론의 컴퓨팅 요구 사항이 특히 Sora와 같은 확산 기반 모델의 경우 훈련의 요구 사항을 능가할 수밖에 없다고 주장합니다. 마티아스는 비디오 생성에 대한 의존도가 점점 더 높아짐에 따라 추론의 계산 요구량이 특히 Sora와 같은 확산 기반 모델의 경우 트레이닝의 요구량을 빠르게 앞지르게 될 것이라고 믿습니다.

마티아스는 Sora의 트레이닝 요구 사항이 LLM보다 몇 배 더 높기 때문에 4200~10500개의 엔비디아 H100에서 약 한 달의 트레이닝이 필요하며, 모델이 1,530만~3810만 분의 동영상을 생성함에 따라 추론의 계산 비용이 트레이닝을 빠르게 앞지를 것으로 예상하고 있습니다. 이에 비해 현재 사용자들은 하루에 1,700만 분의 동영상을 틱톡에, 4,300만 분의 동영상을 유튜브에 업로드합니다. OpenAI의 CTO 미라는 최근 인터뷰에서 동영상 생성 비용도 소라가 아직 대중에게 공개되지 않은 이유라고 언급하며 OpenAI는 공개를 고려하기 전에 Dall-E 이미지 생성 비용에 근접하는 비용을 달성하기를 희망하고 있다고 말했습니다. OpenAI는 개방을 고려하기 전에 Dall-E 이미지 생성 비용에 근접한 비용을 달성하기를 희망합니다.

OpenAI가 최근 출시한 Sora는 매우 사실적인 비디오 장면을 생성하는 능력으로 전 세계를 놀라게 했습니다. 이 글에서는 Sora의 기술적 세부 사항과 이러한 비디오 모델의 잠재적 영향력, 그리고 현재 Facebook의 생각에 대해 설명합니다. 마지막으로, Sora와 같은 모델을 훈련하는 데 필요한 연산에 대한 생각을 공유하고, 향후 GPU 요구 사항을 예측하는 데 중요한 추론과 비교하여 훈련 계산이 어떻게 예측되는지 보여드리겠습니다.

핵심 테이크아웃

이 보고서의 핵심 결과는 다음과 같습니다:

  • Sora는 DiT 및 잠재 확산에 대해 훈련된 확산 모델이며 모델 크기와 훈련 데이터 세트가 확장됩니다;

  • Sora는 비디오 모델링에서 스케일 업의 중요성을 보여주며, LLM과 마찬가지로 지속적인 스케일 업이 모델 기능 향상 과정의 주요 동력이 될 것임을 보여줍니다;

  • 런웨이, 젠모, 피카와 같은 기업들은 Sora와 같은 확산 기반 비디오 생성 모델에 직관적인 인터페이스와 워크플로를 구축할 수 있는 가능성을 모색하고 있으며, 이는 모델의 도달 범위와 사용 편의성을 결정할 것입니다;

  • Sora 트레이닝에 필요한 컴퓨팅 규모는 방대하며, 4200~10500개의 Nvidia H100에서 1개월의 트레이닝이 필요할 것으로 예상하고 있습니다;

  • 추론의 경우, 각 H100은 시간당 약 5분 분량의 동영상을 생성할 수 있으며, Sora와 같은 확산 기반 모델의 추론 비용은 LLM보다 훨씬 높다고 추정합니다;

  • Sora와 같은 동영상 생성 모델이 널리 배포됨에 따라 추론이 계산 소비를 지배하는 모델 학습을 앞지르게 될 것이며, 그 티핑 포인트는 1,530만 분에서 3,810만 분 사이의 동영상이 생성되어 추론에 사용된 계산이 원래 학습에 사용된 계산을 초과하게 되는 시점이 될 것으로 예상됩니다. 이에 비해 사용자들은 매일 1,700만 분 분량의 동영상을 TikTok에, 4,300만 분 분량의 동영상을 YouTube에 업로드합니다;

  • 예를 들어 AI가 이미 동영상 플랫폼에서 잘 구축되어 있다고 가정하면, TikTok의 동영상 중 50%와 YouTube의 동영상 중 15%는 이미 AI에 의해 생성된 것입니다. 하드웨어 사용의 효율성과 사용 방식을 고려할 때, 추론 세션에는 최대 수요 시 약 72만 개의 엔비디아 H100이 필요할 것으로 추정됩니다.

전반적으로 소라는 비디오 생성의 품질과 기능에서 상당한 발전을 이뤘을 뿐만 아니라 향후 추론 세션에 대한 GPU 수요가 크게 증가할 수 있음을 시사합니다.

01. 배경

소라는 확산 모델입니다. 확산 모델은 이미지 생성에 일반적으로 사용되는 모델로서, 확산 기반의 대표적인 이미지 생성 모델인 OpenAI의 Dall-E나 Stability AI의 Stable Diffusion, Runway 등이 있습니다, 런웨이, 젠모, 피카 등 최근 영상 생성을 연구하는 기업들도 확산 모델을 사용하는 경우가 많습니다.

일반적으로 확산 모델은 생성 모델로서 이미지나 동영상과 같은 학습 데이터와 유사한 데이터를 생성하는 능력을 점진적으로 학습하여 데이터에 무작위 노이즈를 추가하는 과정을 역으로 학습하는 모델입니다. 이러한 모델은 처음에는 완전한 노이즈로 시작하여 점차적으로 노이즈를 제거하고 일관되고 상세한 결과물이 될 때까지 패턴을 개선합니다.

확산 과정의 도식적 표현:

세부적인 비디오 콘텐츠가 드러날 때까지 노이즈가 점차적으로 제거됩니다.

출처: Sora 기술 보고서

이 프로세스와 LLM 개념에서 모델이 작동하는 방식에는 분명한 차이가 있습니다. LLM은 자동 회귀 샘플링이라고도 하는 반복 프로세스를 통해 토큰을 순차적으로 생성하며, 모델이 토큰을 생성하면 Perplexity나 ChatGPT 같은 도구를 사용할 때 볼 수 있듯이 토큰이 변경되지 않는다는 점에서는 차이가 있습니다: 답변은 마치 사람이 입력하는 것처럼 단어 하나하나가 그대로 나타납니다.

02. 소라의 기술적 세부 사항

Sora의 출시와 함께 OpenAI는 Sora에 대한 기술 보고서를 발표했지만 자세한 내용은 다루지 않았습니다. 다만, Sora의 설계는 Scalable Diffusion Models with Transformers라는 논문의 영향을 많이 받은 것으로 보입니다. 이 논문에서 두 저자는 DiT라는 이미지 생성을 위한 Transformer 기반 아키텍처를 제안하고 있으며, Sora는 이 논문의 작업을 비디오 생성으로 확장한 것으로 보입니다. Sora의 기술 보고서와 DiT 논문을 결합하면 기본적으로 Sora의 전체 로직을 파악할 수 있습니다.

Sora에 대해 알아야 할 세 가지 중요한 사항이 있습니다:

1. Sora는 픽셀 공간 수준에서 작동하는 것이 아니라 잠재 공간에서 확산하는 방식(잠재 확산이라고도 함)을 선택합니다;

2. Sora는 트랜스포머 아키텍처를 사용합니다;

3. Sora는 매우 큰 데이터 세트를 사용하는 것으로 보입니다.

세부 정보 1: 잠재 확산

위의 첫 번째 요점에서 언급한 잠재 확산을 이해하려면 이미지가 어떻게 생성되는지 생각해 보세요. 확산을 통해 모든 픽셀을 생성할 수 있지만, 예를 들어 512x512 이미지의 픽셀 수는 262,144개이므로 이 프로세스는 매우 비효율적입니다. 그러나 이 접근 방식 외에도 픽셀을 압축된 잠재 표현으로 변환한 다음 데이터 양이 훨씬 적은 이 잠재 공간으로 확산한 다음 확산된 결과를 다시 픽셀 레이어로 변환하는 방법을 선택할 수도 있습니다. 이 변환 프로세스는 더 이상 262,144개의 픽셀을 처리할 필요 없이 64x64=4096개의 잠재 표현만 처리하면 되기 때문에 계산 복잡성을 크게 줄여줍니다. 이 접근 방식은 잠복 확산 모델을 사용한 고해상도 이미지 합성의 핵심적인 혁신이며, 안정적인 확산의 기반이 됩니다.

왼쪽의 픽셀을 오른쪽 그리드의 잠재 표현에 매핑하는 모습.

출처: Sora 기술 보고서

DiT와 Sora는 모두 잠재 확산을 사용하지만, Sora의 경우 비디오에 시간적 차원이 있다는 점을 추가로 고려해야 합니다. 비디오는 프레임이라고도 하는 시계열 이미지입니다. Sora의 기술 보고서에서 볼 수 있듯이 픽셀 레이어에서 잠복 확산으로의 인코딩은 각 프레임의 폭과 높이를 압축하는 공간적 차원과 시간에 걸쳐 압축하는 시간적 차원 모두에서 발생합니다.

세부 정보 2: 트랜스포머 아키텍처

두 번째 요점과 관련하여, DiT와 Sora는 모두 일반적으로 사용되는 U-Net 아키텍처를 가장 기본적인 트랜스포머 아키텍처로 대체합니다. 이것이 중요한 이유는 DiT의 저자들이 Transformer 아키텍처를 사용하면 예측 가능한 확장이 가능하다는 사실을 발견했기 때문입니다. 즉, 기술의 양이 증가함에 따라 모델 학습 시간이 증가하거나 모델 크기가 변경되거나 두 가지 모두에 관계없이 모델의 성능이 향상된다는 것입니다. Sora의 기술 보고서에서도 동일한 점을 지적하지만 비디오 생성 시나리오에 대해 설명합니다. Sora의 기술 보고서는 동영상 생성 시나리오에 대해 동일한 내용을 담고 있으며 시각적 일러스트를 포함하고 있습니다.

모델 품질은 왼쪽에서 오른쪽으로, 기본 연산, 4배 연산, 32배 연산 등 훈련 연산량이 증가함에 따라 향상됩니다.

이 스케일링 속성은 흔히 스케일링 법칙이라고 부르는 것으로 정량화할 수 있으며, 이 또한 중요한 속성입니다. 스케일링 법칙은 비디오 생성 이전부터 LLM과 다른 양식의 자동 회귀 모델 모두에서 연구되어 왔습니다. 더 나은 모델을 얻기 위한 스케일링 능력은 LLM의 빠른 발전의 핵심 원동력 중 하나입니다. 이미지와 비디오 생성에도 스케일링 속성이 있으므로 이러한 영역에도 스케일링 법칙이 적용될 것으로 예상해야 합니다.

세부 사항 3: 데이터 세트

소라와 같은 모델을 훈련할 때 고려해야 할 마지막 핵심 요소 중 하나는 레이블이 지정된 데이터입니다. 데이터 세트에는 Sora의 비밀이 대부분 포함되어 있다고 생각합니다. Sora와 같은 텍스트2비디오 모델을 훈련하려면 동영상과 해당 텍스트 설명을 짝지어주는 데이터가 필요합니다. openAI는 데이터 세트에 대해 자세히 설명하지는 않지만 데이터 세트가 크다는 것을 암시하며, 기술 보고서에서 "LLM이 인터넷 규모의 데이터에 대한 훈련을 기반으로 일반화된 기능을 얻었다는 사실에서 영감을 받았다"고 언급하고 있습니다. 우리는 여기에서 영감을 받았습니다."

출처: 소라 기술 보고서

OpenAI는 또한 상세한 텍스트 라벨로 이미지에 주석을 다는 방법을 발표했는데, 이 방법은 DALLE-3 데이터 세트 수집에 사용되었습니다. 간단히 말해, 이 방법은 라벨이 붙은 데이터 세트의 하위 집합에 캡션 모델을 학습시킨 다음 이 모델을 사용해 나머지 데이터에 자동으로 주석을 다는 것입니다. Sora의 데이터 세트도 이와 유사한 기술을 사용해야 합니다.

03. Sora의 영향

비디오 모델링이 실제로 적용되기 시작했습니다.

Sora가 생성하는 비디오의 품질은 디테일과 시간적 일관성 측면에서 중요한 돌파구입니다. 예를 들어, Sora는 비디오 속 물체가 일시적으로 가려져도 움직이지 않는 현상을 정확하게 처리하고 수면에 반사되는 모습을 정확하게 생성합니다. 현재 Sora의 비디오 품질은 특정 유형의 시나리오에 충분히 적합하며, 이러한 비디오는 곧 대체될 비디오 클립 라이브러리와 같은 특정 실제 애플리케이션에서 사용할 수 있다고 생각합니다.

비디오 생성 도메인 매핑

하지만 Sora는 여전히 몇 가지 과제에 직면해 있는데, 바로 Sora를 얼마나 제어할 수 있는지 명확하지 않다는 점입니다. 이 모델은 픽셀을 출력하기 때문에 생성된 비디오 콘텐츠를 편집하는 것이 매우 어렵고 시간이 많이 걸립니다. 또한 이 모델을 유용하게 사용하려면 동영상 생성 모델을 중심으로 직관적인 UI와 워크플로우를 구축해야 합니다. 위에서 볼 수 있듯이 런웨이, 젠모, 피카는 물론 동영상 생성 분야의 다른 회사들도 이미 이러한 문제를 해결하고 있습니다.

확장을 통해 비디오 생성에 대한 기대치를 가속화할 수 있습니다.

앞서 설명한 것처럼, 이 DiT 연구의 핵심 결론 중 하나는 계산이 증가하면 모델 품질이 직접적으로 향상된다는 것입니다. 이는 이미 LLM에서 관찰한 스케일링 법칙과 유사합니다. 따라서 더 많은 컴퓨팅 리소스로 모델을 학습시키면 비디오 생성 모델이 더욱 빠르게 개선될 것으로 예상할 수 있으며, Sora는 이를 입증하는 강력한 증거이며, OpenAI와 다른 기업들이 이 분야에 대한 투자를 늘릴 것으로 예상합니다.

합성 데이터 생성 및 데이터 향상

로봇 공학이나 자율 주행과 같은 분야에서 데이터는 여전히 본질적으로 부족한 자원입니다. 작업을 수행하거나 자동차 운전을 돕는 로봇의 '인터넷'이 없기 때문입니다. 일반적으로 이 두 분야의 문제 중 일부는 주로 시뮬레이션 환경에서의 훈련, 실제 세계에서 대규모 데이터 수집 또는 이 두 가지의 조합을 통해 해결되어 왔습니다. 그러나 시뮬레이션 데이터는 종종 비현실적이고, 현실 세계에서 대규모로 데이터를 수집하는 것은 매우 비싸고 충분히 많은 수의 작은 확률 이벤트에 대한 데이터를 수집하기 어렵기 때문에 두 가지 접근 방식 모두에 어려움이 있습니다.

위 그림과 같이 원본 비디오(왼쪽)를 밀집된 정글 환경(오른쪽)으로 렌더링하는 등 비디오의 일부 속성을 수정하여 비디오의 품질을 향상시킬 수 있습니다.

출처: Sora 기술 보고서

이러한 문제에는 Sora와 같은 모델이 유용할 수 있다고 생각합니다. Sora와 같은 모델은 잠재적으로 100% 합성된 데이터를 직접 생성하는 데 사용될 수 있으며, 기존 동영상의 표현 방식을 다양하게 변형하는 데이터 향상에도 사용될 수 있다고 믿습니다.

여기서 언급한 데이터 향상은 실제로 위 기술 보고서의 예시를 통해 설명합니다. 원본 영상은 숲길을 달리는 빨간 자동차를 보여주지만, 소라가 처리한 영상은 열대 정글 도로를 달리는 자동차가 됩니다. 동일한 기법을 사용하여 다시 렌더링하면 낮과 밤의 장면 전환이나 날씨 변화도 충분히 가능합니다.

시뮬레이션과 월드 모델

"월드 모델은 충분히 정확하다면 AI 에이전트를 직접 학습시키거나 계획 및 검색에 사용할 수 있는 가치 있는 연구 분야입니다.

소라와 같은 모델은 비디오 데이터로부터 암묵적 학습 방식으로 학습하여 실제 세계가 어떻게 작동하는지에 대한 기본 모델을 개발합니다. 이 '긴급 시뮬레이션'은 현재 결함이 있지만, 비디오 데이터를 대규모로 사용하여 세계 모델을 훈련시킬 수 있다는 점에서 여전히 흥미롭습니다. 또한 Sora는 액체 흐름, 빛의 반사, 섬유 및 머리카락의 움직임 등과 같은 매우 복잡한 시나리오를 시뮬레이션할 수 있는 것으로 보입니다. OpenAI는 Sora의 기술 보고서에서 비디오 생성 모델을 월드 시뮬레이터로 명명했는데, 이는 그들이 이 모델이 영향을 미칠 가장 중요한 측면이라고 생각한다는 것을 분명히 보여줍니다! OpenAI는 Sora의 기술 보고서에서 비디오 생성 모델을 월드 시뮬레이터라고 명명하기도 했는데, 이는 이 모델이 미칠 영향력에서 가장 중요한 측면이라고 생각한다는 것을 분명히 보여줍니다.

최근에 딥마인드는 자체 지니 모델에서도 비슷한 효과를 입증했는데, 일련의 게임 동영상에 대한 훈련만으로 모델이 이러한 게임을 시뮬레이션하고 새로운 게임을 생성할 수 있는 능력을 학습했습니다. 이 경우 모델은 직접 관찰하지 않고도 행동을 기반으로 예측이나 결정을 조정하는 방법까지 학습할 수 있었습니다. Genie의 경우, 모델 학습의 목표는 여전히 이러한 시뮬레이션 환경에서 학습할 수 있도록 하는 것입니다.

구글 딥마인드의 Genie 동영상.

생성형 대화형 환경 소개

종합해 보면, 소라나 지니와 같은 모델은 실제 작업을 위해 로봇과 같은 구현된 에이전트를 대규모로 훈련하는 데 유용할 수 있다고 생각합니다. 물론 이러한 모델은 픽셀 공간에서 훈련되기 때문에 비디오에서 바람의 움직임을 포함한 모든 세부 사항을 시뮬레이션하지만 이러한 세부 사항은 현재 작업과 전혀 관련이 없습니다. 잠재 공간이 압축되더라도 픽셀로 다시 매핑할 수 있도록 보장해야 하기 때문에 여전히 많은 정보를 보유해야 하므로 잠재 공간에서 계획을 효과적으로 수행할 수 있는지는 확실하지 않습니다.

04. 산술적 추정

모델 학습과 추론 과정에서 각각 컴퓨팅 리소스의 수요를 고려해야 하는데, 이 정보는 향후 얼마나 많은 컴퓨팅 리소스가 필요할지 예측하는 데 도움이 될 수 있습니다. 그러나 Sora의 모델 크기와 데이터 세트에 대한 자세한 정보가 거의 없기 때문에 이러한 수치를 추정하기는 어렵습니다. 따라서 이 섹션의 추정치는 실제 상황을 반영하지 않으므로 신중하게 참고하시기 바랍니다.

DiT를 기반으로 한 Sora의 계산 규모 추정하기

Sora에 대한 자세한 내용은 상당히 제한적이지만, 이 연구가 Sora의 기반이 되는 것이 분명한 만큼 DiT 논문을 다시 한 번 검토하고 DiT 논문의 데이터를 참고하여 Sora에 필요한 연산량에 대한 정보를 추정해볼 수 있습니다. 가장 큰 DiT 모델인 DiT-XL은 6억 7,500만 개의 파라미터를 가지고 있으며 학습에 약 1021 FLOPS의 총 연산 리소스를 사용합니다. 이 연산 작업의 규모를 가늠하기 위해 이 정도면 0.4대의 엔비디아 H100을 한 달 동안 가동하거나, 한 대의 H100을 12일 동안 가동하는 것과 맞먹는 수준입니다.

현재 DiT는 이미지 생성에만 사용되지만, 소라는 동영상 모델로서 최대 1분 분량의 동영상을 생성할 수 있습니다. 동영상이 초당 24프레임(fps)의 프레임 속도로 인코딩된다고 가정하면 하나의 동영상에는 최대 1440개의 프레임이 포함됩니다. sora는 픽셀에서 잠재 공간으로 매핑할 때 시간적 차원과 공간적 차원을 모두 압축하는데, DiT 논문에서와 같은 압축률, 즉 8배 압축을 사용한다고 가정하면 잠재 공간에는 180개의 프레임이 존재합니다. 잠재 공간에 180개의 프레임이 있으므로, DiT 값을 비디오로 단순 선형 추정하면 Sora가 DiT보다 180배 더 계산 집약적이라는 뜻이 됩니다.

또한, Sora의 파라미터 수는 6억 7,500만 개보다 훨씬 많으며, 200억 개의 파라미터가 가능하다고 추정하므로, 이러한 관점에서 볼 때 Sora가 DiT보다 30배 더 계산 집약적이라는 또 다른 추측을 할 수 있습니다.

마지막으로, Sora를 학습시키는 데 사용된 데이터 세트는 256개의 배치 크기로 3백만 단계, 즉 총 7억 6,800만 개의 이미지로 학습시킨 DiT보다 훨씬 더 큰 규모입니다. 하지만 이미지넷에는 1400만 개의 이미지만 포함되어 있기 때문에 동일한 데이터를 여러 번 재사용해야 한다는 점에 유의해야 합니다. sora는 이미지와 비디오가 혼합된 데이터셋으로 학습된 것으로 보이지만 데이터셋의 세부 사항에 대해서는 거의 알려진 바가 없습니다. 따라서 Sora의 데이터 세트가 정지 이미지 50%와 동영상 50%로 구성되어 있고 이 데이터 세트가 DiT가 사용하는 데이터 세트보다 10~100배 더 크다고 간단히 가정해 보겠습니다. 그러나 DiT는 동일한 데이터 포인트를 반복해서 학습했으며, 사용 가능한 더 큰 데이터 세트가 있는 경우 DiT의 이러한 접근 방식은 최적이 아닐 수 있습니다. 따라서 계산 증가의 4배에서 10배의 승수를 부여하는 것이 더 합리적입니다.

위의 정보를 결합하고 데이터 세트의 다양한 계산 크기 수준에 대한 예측을 고려하면 다음과 같이 계산할 수 있습니다:

공식: DiT의 기본 계산 × 모델 증가 × 데이터 세트 증가 × 180프레임의 비디오 데이터에 의해 생성된 계산 증가(데이터 세트의 50%에 대해서만)

  • 데이터 세트 크기의 보수적 추정: 1021 FLOPS × 30 × 4 × (180 / 2) ≈ 1.1 × 1025 FLOPS.

  • 데이터 세트 크기를 낙관적으로 추정할 경우: 1021 FLOPS × 30 × 10 × (180/2) ≈ 2.7 × 1025 FLOPS.

Sora의 계산 크기는 한 달 동안 4211 - 10528개의 H100을 실행하는 것과 같습니다.

산술 요구 사항: 모델 추론 대 모델 계산

계산의 또 다른 중요한 부분은 훈련과 추론 세션 간의 계산을 비교하는 것입니다. 이론적으로 훈련 세션의 계산량은 방대하지만 훈련 비용은 일회성이며 한 번만 지불하면 됩니다. 반면 추론은 훈련에 비해 상대적으로 적은 계산이 필요하지만 모델이 콘텐츠를 생성할 때마다 발생하며 사용자 수에 따라 증가합니다. 따라서 사용자 수가 증가하고 모델이 더 널리 사용됨에 따라 모델 추론의 중요성이 점점 더 커집니다.

따라서 추론 연산이 학습 연산을 초과하는 티핑 포인트를 찾는 것도 중요합니다.

DiT(왼쪽)와 Sora(오른쪽)의 학습 연산과 추론 연산을 비교합니다. 위의 추정치에 따르면 Sora의 경우 Sora의 데이터는 완전히 신뢰할 수 없습니다. 또한 훈련 계산에 대한 두 가지 추정치, 즉 낮은 추정치(데이터 세트 크기 배수를 4배로 가정)와 높은 추정치(데이터 세트 크기 배수를 10배로 가정)를 보여줍니다.

위 데이터의 경우, 다시 DiT를 사용하여 Sora를 추론합니다. 가장 큰 모델인 DiT-XL의 경우 추론 단계당 524×109 FLOPS를 사용하는 반면, DiT는 단일 이미지를 생성하는 데 250개의 확산 단계, 즉 총 131×1012 FLOPS를 사용합니다. 760만 개의 이미지를 생성한 후 마침내 "추론 훈련 임계값"에 도달하고 그 이후에는 모델 추론이 계산 요구 사항을 지배하기 시작합니다. 참고로, 사용자들은 매일 약 9,500만 개의 이미지를 Instagram에 업로드합니다.

Sora의 경우 524 × 109FLOPS × 30 × 180 ≈ 2.8 × 1015FLOPS의 FLOPS가 도출되며, 동영상당 250개의 확산 단계를 가정하면 동영상당 총 FLOPS는 708 × 1015FLOPS입니다. 참고로 이는 시간당 이미지당 약 5.8 × 1015FLOPS에 해당하는 수치입니다. 참고로, 이는 Nvidia H100당 시간당 약 5분 분량의 동영상에 해당합니다. 참고로, 이는 시간당 엔비디아 H100당 약 5분 분량의 비디오입니다. 추론 학습 티핑 포인트에 도달하려면 데이터 세트의 크기를 보수적으로 추정하면 1,530만 분의 비디오가 생성되어야 하고, 데이터 세트의 크기를 낙관적으로 추정하면 3,810만 분의 비디오가 생성되어야 합니다. 참고로, 매일 약 4,300만 분 분량의 동영상이 YouTube에 업로드됩니다.

몇 가지 추가 주의 사항: 추론에 있어 FLOPS만이 중요한 것은 아닙니다. 예를 들어 메모리 대역폭도 또 다른 중요한 요소입니다. 또한, 확산 단계를 줄여 모델의 계산 요구 사항을 낮추고 추론 속도를 높이기 위해 적극적으로 노력하는 팀도 있습니다. FLOPS 활용도는 훈련과 추론 세션에 따라 달라질 수 있으며, 이 역시 중요한 고려 사항입니다.

양 송, 프라풀라 다리왈, 마크 첸, 일리야 수츠케버는 2023년 3월 일관성 모델에 관한 연구를 발표했는데, 이 연구에서는 확산 모델이 이미지, 오디오, 비디오 생성 분야에서 상당한 발전을 이루었지만 반복적인 샘플링 프로세스에 의존하고 생성 속도가 느리다는 한계가 있다고 설명합니다. 느린 생성. 이 연구에서는 여러 샘플을 교환하여 계산할 수 있는 일관성 모델을 제안하여 샘플 품질을 개선합니다. https://arxiv.org/abs/2303.01469

다양한 모달 모델 추론 세션에 대한 계산 요구 사항

또한 다양한 모달리티의 다양한 모델에 대한 출력 단위당 추론 계산의 추세를 조사했습니다. 이 연구의 목적은 다양한 모델 클래스에서 추론의 계산 강도가 얼마나 증가하는지, 이는 계산 계획 및 요구 사항에 직접적인 영향을 미칩니다. 서로 다른 양식으로 작동하기 때문에 각 모델마다 출력 단위가 다릅니다. Sora의 단일 출력은 1분 길이의 동영상이고 DiT의 단일 출력은 512x512픽셀 이미지인 반면, Llama 2와 GPT-4의 경우 단일 출력은 1000개의 토큰 텍스트를 포함하는 문서로 정의합니다(참고로, 평균적으로 위키백과 문서당 약 670개의 토큰이 있습니다. 문서에는 평균적으로 약 670개의 토큰이 있습니다.)

모델 출력 단위당 추론 연산 비교: Sora는 단위당 1분 분량의 동영상을 출력하고, GPT-4와 LLama 2는 단위당 1000개의 토큰으로 텍스트를 출력하며, DiT는 단위당 512x512px 이미지를 출력하므로, Sora의 추론 연산이 계산적으로 몇 배 더 많이 드는 것으로 추정됩니다.

Sora, DiT-XL, LLama2-70B, GPT-4를 비교하고 로그 스케일을 사용하여 서로의 FLOPS를 플롯합니다. Sora와 DiT의 경우 위의 추론 추정을 사용하고, Llama 2와 GPT-4의 경우 경험적으로 "FLOPS = 2 × 참가자 수 × 생성된 토큰 수"를 사용하여 빠른 추정을 수행하기로 결정했습니다. GPT-4의 경우, 먼저 전문가 모델당 2,200억 개의 매개변수가 있는 MoE 모델이며, 순방향 전파당 2명의 전문가가 활성화되어 있다고 가정합니다. GPT-4 데이터는 공식적인 것이 아니며 OpenAI에 의해 확인된 것이 아니라 참고용으로만 제공된다는 점에 유의하시기 바랍니다.

출처: X

6억 7,500만 개의 파라미터를 가진 DiT-XL은 700억 개의 파라미터를 가진 LLama 2와 추론 세션에서 거의 동일한 양의 컴퓨팅 파워를 소비합니다. 또한, Sora의 추론 소비량이 GPT-4보다 훨씬 더 높다는 것을 알 수 있습니다.

다시 한 번 말씀드리지만, 위의 계산에 사용된 많은 수치는 추정치이며 단순화된 가정에 의존하고 있다는 점에 유의해야 합니다. 예를 들어, GPU의 실제 FLOPS 사용률, 메모리 용량 및 대역폭 제한, 추측 디코딩과 같은 고급 기술 등을 고려하지 않았습니다.

Sora가 대규모로 채택되었을 때 추론 연산에 대한 수요 예측:

이 섹션에서는 Sora의 컴퓨팅 요구 사항을 살펴보고, AI로 생성된 동영상이 이미 틱톡이나 유튜브와 같은 동영상 플랫폼에서 대규모로 사용되고 있는 경우 이러한 요구 사항을 충족하기 위해 얼마나 많은 Nvidia H100이 필요할지 예측해 보겠습니다.

- 위와 같이 각 H100이 시간당 5분 분량의 동영상을 제작할 수 있다고 가정하면, H100당 하루에 120분 분량의 동영상을 제작할 수 있는 셈이 됩니다.

- TikTok: 현재 사용자가 하루에 1700만 분(총 동영상 3400만 개 × 평균 길이 30초)의 동영상을 업로드하며, AI 보급률이 50%라고 가정합니다;

- YouTube: 현재 사용자가 하루에 업로드하는 동영상은 4,300만 분(주로 2분 미만의 동영상), AI 보급률 15% 가정 시 4,300만 분입니다.

- YouTube: 현재 사용자가 하루에 업로드하는 동영상 4,300만 분, AI 보급률 15% 가정 시(주로 2분 미만 동영상), 하루에 AI가 제작하는 총 동영상 수: 850만 + 650만 = 1,500만 분.

- 틱톡과 유튜브에서 크리에이터 커뮤니티를 지원하는 데 필요한 총 Nvidia H100의 수: 1,500만/1.2 ≈ 89,000대.

그러나 고려해야 할 여러 요인이 있기 때문에 89,000대는 낮은 수치일 수 있습니다:

- 추정치에서 100% FLOPS 사용률을 가정했으며 메모리 및 통신 병목 현상은 고려하지 않았습니다. 50% 사용률이 더 현실적일 수 있습니다. 즉, 실제 GPU 수요는 추정치의 2배입니다;

- 추론 수요는 타임라인에 따라 균일하게 분산되는 것이 아니라, 서비스를 보장하기 위해 더 많은 GPU가 필요한 피크 조건을 고려해야 합니다. 트래픽 피크 시나리오를 고려하면 필요한 GPU 수에 다시 2배의 승수를 부여해야 한다고 생각합니다;

- 크리에이터는 여러 개의 동영상을 생성한 후 가장 좋은 동영상을 선택하여 업로드할 수 있으므로, 업로드되는 각 동영상이 평균 2세대에 해당한다고 보수적으로 가정하면 GPU 수요는 다시 2를 곱합니다;

트래픽이 최고조에 달할 때 추론 수요를 충족하려면 총 약 720,000개의 H100이 필요합니다.

이는 제너레이티브 AI 모델이 더욱 대중화되고 널리 사용됨에 따라 추론이 특히 소라와 같은 확산 기반 모델의 계산 요구 사항을 지배하게 될 것이라는 믿음을 확인시켜 줍니다.

또한 모델 확장이 추론 연산에 대한 수요를 더욱 크게 증가시킬 것이라는 점도 주목할 필요가 있습니다. 그러나 다른 한편으로 이러한 수요 증가의 일부는 추론 기술의 최적화와 전체 기술 스택을 최적화하는 다른 방법으로 상쇄할 수 있습니다.

비디오 콘텐츠 제작은 Sora와 같은 모델의 필요성을 직접적으로 유발합니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트