Bài toán tỷ lệ băm của Sora

Bài viết này được dịch máy

Xem bản gốc

Sora không chỉ đại diện cho một tiến bộ lớn về chất lượng và chức năng tạo video mà còn chỉ ra rằng nhu cầu về GPU trong suy luận có thể tăng đáng kể trong tương lai.

Viết bởi Matthias Plappert

Biên soạn: Siqi, Lavida, Tianyi

Sau khi tung ra mô hình tạo video Sora vào tháng trước, mới hôm qua, OpenAI đã tung ra sê-ri tác phẩm do những người làm công việc sáng tạo thực hiện với sự trợ giúp của Sora, và kết quả đạt được là vô cùng ấn tượng. Không còn nghi ngờ gì nữa, Sora là mô hình tạo video mạnh nhất cho đến nay về chất lượng tạo video. Sự xuất hiện của nó sẽ không chỉ tác động trực tiếp đến ngành công nghiệp sáng tạo mà còn ảnh hưởng đến việc giải quyết một số vấn đề chính trong lĩnh vực robot và tự hành. điều khiển.

Mặc dù OpenAI đã đưa ra báo cáo kỹ thuật về Sora nhưng việc trình bày các chi tiết kỹ thuật trong báo cáo là vô cùng hạn chế. Bài viết này được tổng hợp từ nghiên cứu của Matthias Plappert của Factorial Fund. Matthias từng làm việc tại OpenAI và tham gia dự án Codex. Trong nghiên cứu này , Matthias thảo luận Ngoài các chi tiết kỹ thuật chính của Sora, những điểm đổi mới của mô hình là gì và những tác động quan trọng mà nó sẽ mang lại, nó cũng phân tích tỷ lệ băm của các mô hình tạo video như Sora. Matthias cho rằng rằng khi ứng dụng tạo video ngày càng được tin cậy rộng rãi, các yêu cầu tính toán của liên kết suy luận sẽ nhanh chóng vượt quá liên kết đào tạo, đặc biệt đối với các mô hình dựa trên khuếch tán như Sora.

Theo ước tính của Matthias, yêu cầu về tỷ lệ băm của Sora trong quá trình đào tạo cao hơn LLM vài lần, cần khoảng 1 tháng đào tạo trên 4200-10500 Nvidia H100s và khi mô hình tạo ra 15,3 triệu đến 38,1 triệu phút video, khả năng tính toán sẽ chi phí của giai đoạn suy luận sẽ nhanh chóng vượt quá giai đoạn đào tạo. Để so sánh, người dùng hiện tải 17 triệu phút video lên TikTok và 43 triệu phút lên YouTube mỗi ngày. OpenAI CTO Mira cũng đã đề cập trong một cuộc phỏng vấn gần đây rằng chi phí tạo video cũng là lý do khiến Sora không thể mở cửa cho công chúng trong thời điểm hiện tại. OpenAI hy vọng sẽ đạt được mức chi phí gần bằng chi phí tạo hình ảnh Dall·E trước khi xem xét mở Nó.

Sora được phát hành gần đây của OpenAI đã gây sốc cho thế giới với khả năng tạo ra những cảnh video cực kỳ chân thực. Trong bài đăng này, chúng tôi sẽ đi sâu vào các chi tiết kỹ thuật đằng sau Sora, tác động tiềm tàng của các mô hình video này và một số suy nghĩ hiện tại của chúng tôi. Cuối cùng, chúng tôi cũng sẽ chia sẻ những hiểu biết sâu sắc của mình về tỷ lệ băm cần thiết để đào tạo một mô hình như Sora và đưa ra các dự đoán về tính toán đào tạo so với suy luận, điều này rất quan trọng để ước tính nhu cầu GPU trong tương lai.

quan điểm cốt lõi

Các kết luận cốt lõi của báo cáo này như sau:

Sora là một mô hình khuếch tán được đào tạo dựa trên DiT và Khuếch tán tiềm ẩn, đồng thời được điều chỉnh theo quy mô mô hình và tập dữ liệu huấn luyện;
Sora chứng minh tầm quan trọng của việc mở rộng quy mô trong các mô hình video và việc mở rộng quy mô liên tục sẽ là động lực chính trong quá trình cải thiện khả năng của mô hình, tương tự như LLM;
Các công ty như Runway, Genmo và Pika đang khám phá việc xây dựng các giao diện và quy trình làm việc trực quan trên các mô hình tạo video dựa trên sự khuếch tán như Sora, điều này sẽ quyết định việc quảng bá và dễ sử dụng mô hình;
Việc đào tạo Sora đòi hỏi sức mạnh tỷ lệ băm rất lớn, chúng tôi ước tính sẽ mất 1 tháng để đào tạo trên 4200-10500 Nvidia H100s;
Trong quá trình suy luận, chúng tôi ước tính rằng mỗi H100 có thể tạo ra tối đa khoảng 5 phút video mỗi giờ. Chi phí suy luận của các mô hình dựa trên khuếch tán như Sora cao hơn LLM vài bậc;
Khi các mô hình tạo video như Sora được quảng bá và áp dụng rộng rãi, liên kết suy luận sẽ chi phối mức tiêu thụ tính toán so với việc đào tạo mô hình. Điểm mấu chốt ở đây là sau khi sản xuất được 15,3 triệu đến 38,1 triệu phút video. Tại thời điểm này, số tiền chi cho suy luận Số lượng tính toán sẽ vượt quá số lượng đào tạo ban đầu. Để so sánh, người dùng tải 17 triệu phút video lên TikTok và 43 triệu phút lên YouTube mỗi ngày;
Giả sử AI đã được áp dụng đầy đủ trên nền tảng video, chẳng hạn 50% video trên TikTok và 15% video trên YouTube là do AI tạo ra. Khi tính đến hiệu quả và cách sử dụng phần cứng, chúng tôi ước tính rằng theo nhu cầu cao nhất, liên kết suy luận sẽ cần khoảng 720.000 Nvidia H100.

Nhìn chung, Sora không chỉ thể hiện sự tiến bộ lớn về chất lượng và chức năng tạo video mà còn chỉ ra rằng nhu cầu về GPU trong suy luận có thể tăng đáng kể trong tương lai.

bối cảnh

Sora là một mô hình khuếch tán. Các mô hình khuếch tán được sử dụng rộng rãi trong lĩnh vực tạo hình ảnh. Các mô hình tạo hình ảnh đại diện như Dall-E của OpenAI hoặc Stable Diffusion của Stability AI đều dựa trên khuếch tán. Runway, Genmo và Pika gần đây có các công ty xuất hiện khám phá việc tạo video rất có thể sử dụng mô hình khuếch tán.

Nói rộng hơn, với tư cách là một mô hình tổng quát, mô hình khuếch tán học cách tạo dữ liệu tương tự với dữ liệu huấn luyện của nó, chẳng hạn như hình ảnh hoặc video, bằng cách dần dần học cách đảo ngược quá trình thêm nhiễu ngẫu nhiên vào dữ liệu dữ liệu . Những mô hình này ban đầu bắt đầu với nhiễu hoàn toàn, dần dần loại bỏ nhiễu và tinh chỉnh mẫu cho đến khi nó trở thành đầu ra mạch lạc và chi tiết.

Sơ đồ của quá trình khuếch tán:

Tiếng ồn được loại bỏ dần cho đến khi nội dung video chi tiết được lộ ra

Nguồn: Báo cáo kỹ thuật Sora

Quá trình này khác biệt đáng kể so với cách hoạt động của mô hình theo khái niệm LLM: LLM lần lượt tạo ra các mã thông báo thông qua việc lặp lại. Quá trình này còn được gọi là lấy mẫu tự hồi quy. Khi mô hình tạo ra token, nó sẽ không bao giờ thay đổi, chúng ta có thể thấy quá trình này khi sử dụng các công cụ như Perplexity hoặc ChatGPT: câu trả lời xuất hiện từng chữ, giống như ai đó đang gõ.

02. Chi tiết kỹ thuật của Sora

Cùng thời điểm Sora được ra mắt, OpenAI cũng đưa ra báo cáo kỹ thuật về Sora nhưng báo cáo không trình bày nhiều chi tiết. Tuy nhiên, thiết kế của Sora dường như bị ảnh hưởng nặng nề bởi Mô hình khuếch tán có thể mở rộng trên giấy với Máy biến áp. Trong bài báo này, hai tác giả đã đề xuất một kiến trúc dựa trên Transformer có tên là DiT để tạo hình ảnh. Sora dường như đã mở rộng công việc của bài báo này sang lĩnh vực tạo video. Kết hợp báo cáo kỹ thuật của Sora và bài báo của DiT, về cơ bản chúng ta có thể sắp xếp chính xác toàn bộ logic của Sora.

Ba thông tin quan trọng về Sora:

1. Sora không chọn làm việc ở cấp độ không gian pixel mà chọn khuếch tán trong không gian tiềm ẩn (không gian tiềm ẩn, còn gọi là khuếch tán tiềm ẩn);

2. Sora áp dụng kiến trúc Transformer;

3. Sora dường như sử dụng một tập dữ liệu rất lớn.

Chi tiết 1: Khuếch tán tiềm ẩn

Để hiểu sự khuếch tán tiềm ẩn được đề cập ở điểm đầu tiên ở trên, trước tiên bạn có thể nghĩ về cách tạo ra hình ảnh. Chúng ta có thể tạo từng pixel thông qua khuếch tán, nhưng quá trình này sẽ khá kém hiệu quả. Ví dụ: hình ảnh 512x512 có 262.144 pixel. Nhưng ngoài phương pháp này, trước tiên chúng ta cũng có thể chọn chuyển đổi các pixel thành biểu diễn tiềm ẩn được nén, sau đó khuếch tán nó trên không gian tiềm ẩn này với một lượng dữ liệu nhỏ hơn và cuối cùng chuyển đổi kết quả khuếch tán trở lại lớp pixel. Quá trình chuyển đổi này có thể làm giảm đáng kể độ phức tạp tính toán.Chúng ta không còn cần xử lý 262.144 pixel mà chỉ cần xử lý các biểu diễn tiềm ẩn 64x64=4096. Phương pháp này là bước đột phá quan trọng của Tổng hợp hình ảnh độ phân giải cao với các mô hình khuếch tán tiềm ẩn và cơ sở của Khuếch tán ổn định.

Ánh xạ các pixel trong ảnh bên trái tới biểu diễn tiềm năng được biểu thị bằng lưới trong ảnh bên phải

Nguồn: Báo cáo kỹ thuật Sora

Cả DiT và Sora đều sử dụng sự khuếch tán tiềm ẩn. Đối với Sora, một điểm cần cân nhắc nữa là video có chiều thời gian: video là một chuỗi thời gian của sê-ri hình ảnh mà chúng tôi còn gọi là khung hình. Từ báo cáo kỹ thuật của Sora, chúng ta có thể thấy rằng quá trình mã hóa từ lớp pixel đến vùng tiềm ẩn xảy ra cả ở cấp độ không gian, nghĩa là nén chiều rộng và chiều cao của mỗi khung hình và theo chiều thời gian, tức là nén theo thời gian .

Chi tiết 2: Kiến trúc máy biến áp

Về điểm thứ hai, cả DiT và Sora đều thay thế kiến trúc U-Net thường được sử dụng bằng kiến trúc Transformer cơ bản nhất. Điều này rất quan trọng vì các tác giả của DiT nhận thấy rằng việc mở rộng quy mô có thể dự đoán được có thể xảy ra bằng cách sử dụng kiến trúc Transformer: khi số lượng công nghệ tăng lên, cho dù thời gian đào tạo mô hình có tăng hay kích thước mô hình thay đổi hay cả hai, mô hình đều có thể tăng cường sức mạnh. Báo cáo kỹ thuật của Sora cũng đề cập đến quan điểm tương tự, nhưng nó dành cho các kịch bản tạo video và báo cáo cũng bao gồm một sơ đồ trực quan.

Chất lượng mô hình được cải thiện khi số lượng phép tính huấn luyện tăng lên: từ trái sang phải, lượng tính toán cơ bản, gấp 4 lần lượng tính toán và 32 lần lượng tính toán.

Đặc tính chia tỷ lệ này có thể được định lượng bằng cái mà chúng ta thường gọi là luật chia tỷ lệ, đây cũng là một thuộc tính rất quan trọng. Trước khi tạo video, luật chia tỷ lệ đã được nghiên cứu cả trong bối cảnh LLM và các mô hình tự hồi quy ở các phương thức khác. Khả năng thu được các mô hình tốt hơn thông qua quy mô là một trong những động lực chính cho sự phát triển nhanh chóng của LLM. Vì việc tạo hình ảnh và video cũng có các thuộc tính chia tỷ lệ nên chúng ta kỳ vọng luật chia tỷ lệ cũng sẽ được áp dụng trong các trường này.

Chi tiết 3: Bộ dữ liệu

Để đào tạo một mô hình như Sora, yếu tố quan trọng cuối cùng cần xem xét là dữ liệu được dán nhãn. Chúng tôi cho rằng rằng liên kết dữ liệu chứa hầu hết bí mật của Sora. Để huấn luyện mô hình text2video như Sora, chúng ta cần dữ liệu ghép nối của các video và mô tả văn bản tương ứng của chúng. OpenAI không thảo luận nhiều dữ liệu nhưng họ cũng ám chỉ rằng tập dữ liệu rất lớn. Trong báo cáo kỹ thuật, OpenAI đã đề cập: "Dựa trên việc đào tạo về dữ liệu cấp độ Internet, LLM đã đạt được các khả năng chung. Chúng tôi đã học được từ điều này Got lấy cảm hứng".

Nguồn: Báo cáo kỹ thuật Sora

OpenAI cũng đã công bố một phương pháp chú thích hình ảnh với các nhãn văn bản chi tiết, phương pháp này được sử dụng để thu thập tập dữ liệu DALLE-3. Nói một cách đơn giản, phương pháp này huấn luyện một chú thích trên một tập hợp con được gắn nhãn của tập dữ liệu(mô hình phụ đề), sau đó sử dụng mô hình này để tự động hoàn thành việc gắn nhãn cho các bài đăng dữ liệu còn lại. Tập dữ liệu của Sora cũng nên sử dụng công nghệ tương tự.

03.Ảnh hưởng của Sora

Các mô hình video đang bắt đầu được áp dụng vào thực tế

Từ góc độ chi tiết và sự mạch lạc về thời gian, chất lượng của video do Sora tạo ra chắc chắn là một bước đột phá quan trọng. Ví dụ, Sora có thể xử lý chính xác các vật thể trong video vẫn bất động khi chúng tạm thời bị che khuất và có thể tạo ra hiệu ứng phản chiếu nước một cách chính xác. . Chúng tôi tin rằng chất lượng video hiện tại của Sora đủ tốt cho một số loại tình huống nhất định và những video này có thể được sử dụng trong một số ứng dụng trong thế giới thực. Ví dụ: Sora có thể sớm thay thế một số nhu cầu về thư viện video.

Bản đồ miền tạo video

Tuy nhiên, Sora vẫn phải đối mặt với một số thách thức: Chúng ta vẫn chưa biết Sora có thể kiểm soát được đến mức nào. Vì mô hình xuất ra pixel nên việc chỉnh sửa nội dung video được tạo ra rất khó khăn và tốn thời gian. Để mô hình trở nên hữu ích, cần phải xây dựng giao diện người dùng và quy trình làm việc trực quan xung quanh mô hình tạo video. Như đã trình bày ở trên, Runway, Genmo và Pika, cùng với các công ty khác trong lĩnh vực tạo video, đã và đang giải quyết những vấn đề này.

Nhờ Chia tỷ lệ, chúng tôi có thể tăng tốc độ tạo video để dự đoán

Như chúng ta đã thảo luận trước đó, kết luận quan trọng trong nghiên cứu DiT này là chất lượng mô hình sẽ trực tiếp cải thiện khi số lượng tính toán tăng lên. Điều này rất giống với quy luật chia tỷ lệ mà chúng tôi đã quan sát thấy trong LLM. Do đó, chúng ta cũng có thể mong đợi rằng chất lượng của các mô hình tạo video sẽ nhanh chóng được cải thiện hơn nữa khi các mô hình này được đào tạo trên nhiều tài nguyên máy tính hơn. Sora là sự xác nhận mạnh mẽ cho điều này và chúng tôi hy vọng OpenAI và các công ty khác sẽ tăng gấp đôi về điều này.

Tạo dữ liệu tổng hợp và nâng cao dữ liệu

Trong các lĩnh vực như robot và lái xe tự động, dữ liệu về cơ bản là một nguồn tài nguyên khan hiếm: trong những lĩnh vực này không có sự tồn tại giống như "Internet" nơi robot có mặt ở khắp mọi nơi để giúp làm việc hoặc lái xe. Thông thường, một số vấn đề trong hai lĩnh vực này chủ yếu được giải quyết bằng cách đào tạo trong hoàn cảnh mô phỏng, thu thập dữ liệu trên quy mô lớn trong thế giới thực hoặc kết hợp cả hai. Tuy nhiên, cả hai phương pháp đều đặt ra những thách thức, vì dữ liệu mô phỏng thường không thực tế, việc thu thập dữ liệu trên quy mô lớn trong thế giới thực rất tốn kém và việc thu thập đủ dữ liệu về các sự kiện có xác suất thấp cũng là một thách thức.

Như minh họa trong hình trên, video có thể được nâng cao bằng cách sửa đổi một số thuộc tính của video, chẳng hạn như hiển thị video gốc (trái) thành hoàn cảnh rừng rậm (phải)

Nguồn: Báo cáo kỹ thuật Sora

Chúng tôi tin rằng những người mẫu như Sora có vai trò trong những vấn đề này. Chúng tôi cho rằng rằng các mô hình như Sora có tiềm năng được sử dụng trực tiếp để tạo ra dữ liệu tổng hợp 100%. Sora cũng có thể được sử dụng để tăng cường dữ liệu, tức là thực hiện các phép biến đổi khác nhau khi trình bày các video hiện có.

Việc tăng cường dữ liệu được đề cập ở đây thực sự có thể được minh họa bằng ví dụ trong báo cáo kỹ thuật ở trên. Trong video gốc, một chiếc ô tô màu đỏ đang chạy trên đường rừng, sau khi Sora xử lý, video chuyển thành một chiếc ô tô đang chạy trên đường rừng nhiệt đới. Chúng tôi hoàn toàn có thể tin rằng việc sử dụng cùng một công nghệ để kết xuất lại cũng có thể đạt được sự chuyển đổi cảnh ngày và đêm hoặc thay đổi điều kiện thời tiết.

Mô phỏng và mô hình thế giới

"Mô hình thế giới" là một hướng nghiên cứu có giá trị, nếu các mô hình đủ chính xác, các mô hình thế giới này có thể cho phép con người trực tiếp đào tạo các tác nhân AI trong trong đó hoặc các mô hình này có thể được sử dụng để lập kế hoạch và tìm kiếm.

Những mô hình như Sora học mô hình cơ bản về cách thế giới thực hoạt động từ dữ liệu video theo cách học ngầm. Mặc dù loại "mô phỏng mới nổi" này hiện còn thiếu sót nhưng nó vẫn rất thú vị: nó cho thấy rằng chúng ta có thể đào tạo các mô hình trên thế giới bằng cách sử dụng dữ liệu video trên quy mô lớn. Ngoài ra, Sora dường như có thể mô phỏng những cảnh rất phức tạp, chẳng hạn như dòng chất lỏng, phản xạ ánh sáng, chuyển động của sợi và tóc, v.v. OpenAI thậm chí còn đặt tên báo cáo kỹ thuật của Sora Các mô hình tạo video là trình mô phỏng thế giới , điều này cho thấy rõ ràng rằng họ tin rằng đây là khía cạnh quan trọng nhất mà mô hình sẽ có tác động.

Gần đây, DeepMind cũng cho thấy hiệu ứng tương tự trong mô hình Genie của mình: chỉ bằng cách huấn luyện trên sê-ri video trò chơi, mô hình này đã học được khả năng mô phỏng các trò chơi này và thậm chí tạo ra các trò chơi mới. Trong trường hợp này, mô hình có thể học cách điều chỉnh các dự đoán hoặc quyết định dựa trên hành vi, ngay cả khi không quan sát trực tiếp hành vi đó. Trong trường hợp của Genie, mục tiêu của việc đào tạo người mẫu vẫn là có thể học hỏi trong hoàn cảnh mô phỏng này.

Video đến từ Genie của Google DeepMind:

Giới thiệu về môi trường tương tác sáng tạo

Tổng hợp lại, chúng tôi tin rằng nếu chúng tôi muốn đào tạo các đặc vụ thể hiện như robot trên quy mô lớn dựa trên nhiệm vụ trong thế giới thực, thì những người mẫu như Sora và Genie chắc chắn sẽ có thể thực hiện được. Tất nhiên, mô hình này cũng có hạn chế: do mô hình được huấn luyện trong không gian pixel nên mô hình sẽ mô phỏng từng chi tiết, bao gồm cả gió và cỏ trong video, nhưng những chi tiết này hoàn toàn không liên quan đến nhiệm vụ hiện tại. Mặc dù không gian tiềm ẩn được nén nhưng nó vẫn cần giữ lại nhiều thông tin này vì nó cần được ánh xạ trở lại pixel, vì vậy không rõ liệu việc lập kế hoạch có thể được thực hiện hiệu quả trong không gian tiềm ẩn hay không.

04. Ước tính tỷ lệ băm

Chúng tôi rất quan tâm đến các yêu cầu về tài nguyên máy tính trong quá trình đào tạo và suy luận mô hình. Thông tin này có thể giúp chúng tôi dự đoán lượng tài nguyên máy tính sẽ cần trong tương lai. Tuy nhiên, việc ước tính những con số này rất khó vì có rất ít thông tin chi tiết về kích thước mô hình và dữ liệu của Sora. Do đó, ước tính của chúng tôi trong lĩnh vực này không phản ánh đúng tình hình thực tế, vì vậy vui lòng tham khảo một cách thận trọng.

Suy diễn quy mô tính toán của Sora dựa trên DiT

Thông tin chi tiết về Sora khá hạn chế, nhưng chúng ta có thể nhìn lại bài báo DiT và sử dụng dữ liệu trong bài báo DiT để suy đoán thông tin về lượng tính toán cần thiết cho Sora, vì nghiên cứu này rõ ràng là cơ sở cho Sora. Là mô hình DiT lớn nhất, DiT-XL có 675 triệu tham số và sử dụng khoảng 1021FLOPS trong tổng tài nguyên máy tính để đào tạo. Để dễ hiểu quy mô của phép tính này, thang tính toán này tương đương với việc sử dụng 0,4 chiếc Nvidia H100 để chạy trong 1 tháng, hoặc một chiếc H100 để chạy trong 12 ngày.

Hiện tại, DiT chỉ được sử dụng để tạo hình ảnh còn Sora là người mẫu video. Sora có thể tạo video dài tới 1 phút. Nếu chúng tôi giả định rằng video được mã hóa ở tốc độ 24 khung hình mỗi giây (khung hình/giây) thì một video chứa tối đa 1440 khung hình. Sora nén cả chiều thời gian và không gian trong ánh xạ từ pixel đến không gian tiềm ẩn. Giả sử Sora sử dụng cùng tốc độ nén như trong giấy DiT, tức là nén 8 lần thì có 180 khung hình trong không gian tiềm ẩn, vì vậy, nếu chúng tôi chỉ đơn giản ngoại suy tuyến tính giá trị của DiT cho video, điều đó có nghĩa là lượng tính toán của Sora gấp 180 lần so với DiT.

Ngoài ra, chúng tôi tin rằng số lượng tham số của Sora vượt xa 675 triệu. Chúng tôi ước tính rằng số lượng tham số trên quy mô 20 tỷ cũng có thể xảy ra, điều đó có nghĩa là từ góc độ này, chúng tôi có một phỏng đoán khác rằng lượng tính toán của Sora gấp 30 lần DiT.

Cuối cùng, chúng tôi cho rằng tập dữ liệu được sử dụng để huấn luyện Sora lớn hơn nhiều so với tập dữ liệu được DiT sử dụng. DiT được đào tạo 3 triệu bước với kích thước lô là 256, nghĩa là tổng cộng 768 triệu hình ảnh đã được xử lý. Tuy nhiên, cần lưu ý rằng vì ImageNet chỉ chứa 14 triệu hình ảnh nên điều này đòi hỏi phải sử dụng lại nhiều lần cùng một dữ liệu. Sora dường như đã được đào tạo về một dữ liệu hỗn hợp gồm hình ảnh và video, nhưng chúng tôi không biết gì về các chi tiết cụ thể của dữ liệu. Do đó, chúng tôi chỉ đơn giản giả định rằng tập dữ liệu của Sora bao gồm 50% hình ảnh tĩnh và 50% video và tập dữ liệu này lớn hơn từ 10 đến 100 lần so với tập dữ liệu mà DiT sử dụng. Tuy nhiên, DiT liên tục huấn luyện các điểm dữ liệu giống nhau, điều này có thể không tối ưu khi có sẵn dữ liệu lớn hơn. Vì vậy, sẽ hợp lý hơn nếu chúng ta đặt hệ số nhân để tăng số lượng tính toán lên gấp 4 đến 10 lần.

Dựa trên thông tin trên và tính đến ước tính của chúng tôi về các cấp độ khác nhau của thang tính toán tập dữ liệu, có thể thu được kết quả tính toán sau:

Công thức: Lượng tính toán cơ bản của DiT × mức tăng mô hình × mức tăng tập dữ liệu × lượng tính toán tăng được tạo bởi 180 khung hình dữ liệu video (chỉ dành cho 50% tập dữ liệu)

Ước tính thận trọng về kích thước của dữ liệu: 1021 FLOPS × 30 × 4 × (180 / 2) ≈ 1,1×1025 FLOPS
Ước tính lạc quan về kích thước của tập dữ liệu: 1021FLOPS × 30 × 10 × (180 / 2) ≈ 2,7×1025FLOPS

Thang tính toán của Sora tương đương với lượng tính toán 4211-10528 H100 chạy trong một tháng.

Yêu cầu về tỷ lệ băm: lý luận mô hình VS tính toán mô hình

Một phần quan trọng khác của tính toán mà chúng ta chú ý đến là so sánh lượng tính toán giữa huấn luyện và suy luận. Về mặt lý thuyết, ngay cả khi số lượng tính toán trong quá trình đào tạo rất lớn, chi phí đào tạo là một lần và chỉ cần trả giá một lần. Ngược lại, mặc dù suy luận yêu cầu tính toán nhỏ hơn so với đào tạo, nhưng nó được tạo ra mỗi khi mô hình tạo nội dung và cũng tăng lên khi số lượng người dùng tăng lên. Do đó, suy luận mô hình ngày càng trở nên quan trọng khi số lượng người dùng tăng lên và mô hình được sử dụng rộng rãi hơn.

Do đó, việc tìm ra điểm tới hạn tại đó tính toán suy luận vượt quá tính toán huấn luyện cũng rất có giá trị.

Chúng tôi so sánh quá trình huấn luyện và tính toán suy luận của DiT (trái) và Sora (phải). Đối với Sora, dựa trên ước tính trên, dữ liệu của Sora không hoàn toàn đáng tin cậy. Chúng tôi cũng hiển thị hai ước tính về tính toán đào tạo: ước tính thấp (giả sử hệ số nhân kích thước dữ liệu là 4x) và ước tính cao (giả sử hệ số nhân kích thước dữ liệu là 10 lần).

Với dữ liệu trên, chúng ta lại sử dụng DiT để suy đoán trường hợp của Sora. Đối với DiT, mô hình lớn nhất DiT-XL sử dụng 524×109FLOPS cho mỗi bước suy luận và DiT sử dụng 250 bước khuếch tán để tạo ra hình ảnh, tổng cộng là 131×1012FLOPS. Chúng ta có thể thấy rằng sau khi tạo ra 7,6 triệu hình ảnh, cuối cùng đã đạt được "điểm tới hạn huấn luyện suy luận", sau đó, suy luận mô hình bắt đầu vị trí chủ đạo trong các yêu cầu tính toán. Để tham khảo, người dùng tải khoảng 95 triệu hình ảnh lên Instagram mỗi ngày.

Đối với Sora, chúng tôi tính toán FLOPS là 524×109FLOPS × 30 × 180 ≈ 2,8×1015FLOPS. Nếu chúng tôi vẫn giả sử 250 bước khuếch tán cho mỗi video thì tổng FLOPS trên mỗi video là 708×1015FLOPS. Để tham khảo, điều này tương đương với khoảng 5 phút video trên mỗi Nvidia H100 mỗi giờ. Trong trường hợp ước tính thận trọng của dữ liệu, việc đạt đến "điểm tới hạn huấn luyện suy luận" đòi hỏi phải tạo ra 15,3 triệu phút video. Trong trường hợp ước tính lạc quan về kích thước của tập dữ liệu, để đạt được điểm tới hạn điểm, cần tạo ra 38,1 triệu phút video. Để tham khảo, có khoảng 43 triệu phút video được tải lên YouTube mỗi ngày.

Một số lưu ý bổ sung cần bổ sung: FLOPS không phải là điều duy nhất quan trọng đối với suy luận. Ví dụ, băng thông bộ nhớ là một yếu tố quan trọng khác. Ngoài ra, cũng có đội ngũ đang tích cực nghiên cứu các bước để giảm sự khuếch tán, điều này cũng sẽ làm giảm yêu cầu tính toán mô hình và do đó suy luận nhanh hơn. Việc sử dụng FLOPS cũng có thể khác nhau giữa huấn luyện và suy luận, đây cũng là một điều quan trọng cần cân nhắc.

Yang Song, Prafulla Dhariwal, Mark Chen và Ilya Sutskever đã công bố một nghiên cứu về Mô hình nhất quán vào tháng 3 năm 2023. Nghiên cứu chỉ ra rằng mô hình khuếch tán đã đạt được tiến bộ đáng kể trong lĩnh vực tạo hình ảnh, âm thanh và video nhưng vẫn có những hạn chế như độ tin cậy về quá trình lấy mẫu lặp lại và tạo chậm. Nghiên cứu đề xuất mô hình nhất quán cho phép tính toán trao đổi mẫu nhiều lần để cải thiện chất lượng mẫu. https://arxiv.org/abs/2303.01469

Yêu cầu tính toán cho các liên kết suy luận mô hình phương thức khác nhau

Chúng tôi cũng nghiên cứu xu hướng thay đổi của tính toán suy luận trên mỗi đơn vị đầu ra của các mô hình khác nhau ở các chế độ khác nhau. Mục đích của nghiên cứu là cường độ tính toán của suy luận tăng lên bao nhiêu trong các loại mô hình khác nhau, điều này có ý nghĩa trực tiếp đối với các yêu cầu và kế hoạch tính toán. Vì chúng chạy ở các phương thức khác nhau nên đơn vị đầu ra của mỗi mô hình cũng khác nhau: một đầu ra duy nhất cho Sora là video dài 1 phút, một đầu ra duy nhất cho DiT là hình ảnh 512x512 pixel; trong khi đối với Llama 2 và GPT-4. Đầu ra duy nhất mà chúng tôi xác định là một tài liệu chứa 1000 mã thông báo văn bản (để tham khảo, bài viết Wikipedia trung bình có khoảng 670 mã thông báo).

So sánh đầu ra tính toán suy luận theo từng đơn vị của mô hình: Sora xuất ra video dài 1 phút trên mỗi đơn vị, GPT-4 và LLama 2 xuất ra 1000 Token văn bản trên mỗi đơn vị, DiT xuất ra hình ảnh 512x512px trên mỗi đơn vị và hình ảnh thể hiện suy luận của Sora ước tính Nó đắt hơn nhiều về mặt tính toán.

Chúng tôi đã so sánh Sora, DiT-XL, LLama2-70B và GPT-4 và vẽ biểu đồ so sánh FLOPS của chúng bằng thang đo log. Đối với Sora và DiT, chúng tôi sử dụng ước tính suy luận được đề cập ở trên. Đối với Llama 2 và GPT-4, chúng tôi chọn sử dụng "FLOPS = 2 × số lượng tham số × số Token được tạo" để ước tính nhanh dựa trên kinh nghiệm. Đối với GPT-4, trước tiên chúng tôi giả định rằng mô hình này là mô hình MoE, mỗi mô hình chuyên gia có 220 tỷ tham số và mỗi lần truyền chuyển tiếp sẽ kích hoạt 2 chuyên gia. Cần chỉ ra rằng dữ liệu liên quan đến GPT-4 không phải là cỡ nòng chính thức được OpenAI xác nhận và chỉ mang tham khảo.

Nguồn:X

Chúng ta có thể thấy rằng các mô hình dựa trên khuếch tán như DiT và Sora tiêu thụ nhiều tỷ lệ băm hơn trong giai đoạn suy luận: DiT-XL với 675 triệu tham số tiêu thụ lượng sức mạnh tính toán trong giai đoạn suy luận gần như tương đương với LLama 2 với 70 tỷ tham số. Hơn nữa, chúng ta có thể thấy rằng chi phí suy luận của Sora cao hơn GPT-4 vài bậc.

Cần phải chỉ ra một lần nữa rằng nhiều con số được sử dụng trong các tính toán trên là ước tính và dựa trên các giả định đơn giản hóa. Ví dụ: chúng không tính đến việc sử dụng FLOPS GPU thực tế, dung lượng bộ nhớ và giới hạn băng thông bộ nhớ cũng như phương pháp kỹ thuật nâng cao hơn như giải mã suy đoán.

Dự báo nhu cầu tính toán suy luận khi Sora được sử dụng rộng rãi:

Trong phần này, chúng ta bắt đầu từ nhu cầu tính toán của Sora để tính toán: Nếu các video do AI tạo ra đã được sử dụng rộng rãi trên các nền tảng video như TikTok và YouTube, thì sẽ cần bao nhiêu chiếc Nvidia H100 để đáp ứng những nhu cầu này.

• Như trên, chúng tôi giả định mỗi chiếc H100 có thể tạo ra 5 phút video mỗi giờ, tương đương với mỗi chiếc H100 có thể tạo ra 120 phút video mỗi ngày.

• Trên TikTok: Người dùng hiện tại tải lên 17 triệu phút video mỗi ngày (tổng cộng 34 triệu video × thời lượng trung bình 30 giây), giả sử tỷ lệ thâm nhập AI là 50%;

• Trên YouTube: Người dùng hiện tại tải lên 43 triệu phút video mỗi ngày, giả định tỷ lệ thâm nhập AI là 15% (chủ yếu là video dưới 2 phút),

• Khi đó tổng lượng video do AI tạo ra mỗi ngày: 8,5 triệu + 6,5 triệu = 15 triệu phút.

• Tổng số Nvidia H100 cần thiết để hỗ trợ cộng đồng sáng tạo trên TikTok và YouTube: 15 triệu / 120 ≈ 89.000.

Tuy nhiên, giá trị 89.000 có thể thấp vì cần xét đến các yếu tố sau:

• Trong tính toán của chúng tôi, chúng tôi giả định mức sử dụng FLOPS là 100% và không tính đến tắc nghẽn bộ nhớ và truyền thông. Tỷ lệ sử dụng 50% sẽ thực tế hơn, nghĩa là nhu cầu GPU thực tế gấp 2 lần giá trị ước tính;

• Các yêu cầu suy luận không được phân bổ đồng đều theo dòng thời gian mà còn bùng nổ, đặc biệt khi xét đến các tình huống cao điểm, vì cần nhiều GPU hơn để đảm bảo dịch vụ. Chúng tôi cho rằng rằng nếu xem xét tình hình lưu lượng truy cập cao điểm, chúng tôi cần cung cấp cho nhu cầu GPU gấp 2 lần;

• Người sáng tạo có thể tạo nhiều video rồi chọn video hay nhất để tải lên, nếu giả định một cách thận trọng rằng mỗi video tải lên trung bình tương ứng với 2 thế hệ thì nhu cầu GPU sẽ nhân 2;

Nhìn chung, trong điều kiện lưu lượng cao điểm, cần khoảng 720.000 H100 để đáp ứng nhu cầu suy luận.

Điều này cũng xác nhận niềm tin của chúng tôi rằng khi các mô hình AI tổng quát trở nên phổ biến và được tin cậy rộng rãi hơn, các yêu cầu tính toán của giai đoạn suy luận sẽ chiếm ưu thế, đặc biệt là đối với các mô hình dựa trên khuếch tán như Sora. .

Đồng thời, cần lưu ý rằng việc mở rộng quy mô mô hình sẽ thúc đẩy hơn nữa đáng kể nhu cầu về điện toán suy luận. Mặt khác, một số nhu cầu gia tăng này có thể được bù đắp bằng cách tối ưu hóa công nghệ suy luận và các tối ưu hóa khác của toàn bộ chuỗi công nghệ.

Tạo ra nội dung video trực tiếp thúc đẩy nhu cầu về những người mẫu như Sora

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan