Lao Huang giải mã ba thế hệ GPU trong một lần, phá vỡ Định luật Moore để xây dựng đế chế AI và sản xuất hàng loạt Blackwell để giải quyết vấn đề tiêu thụ điện năng toàn cầu của ChatGPT

avatar
36kr
06-03
Bài viết này được dịch máy
Xem bản gốc

Vừa rồi, Lao Huang đã thể hiện với thế giới một cách nổi bật: Blackwell, được sản xuất hàng loạt, sẽ cắt giảm mức tiêu thụ năng lượng đào tạo từ 1,8 nghìn tỷ thông số GPT-4 xuống còn 1/350 trong vòng 8 năm; lặp đi lặp lại, trực tiếp Chọc thủng Định luật Moore ngay tại chỗ; lộ trình của Blackwell cho ba thế hệ tiếp theo cũng được phát hành trong một lần.

Vừa rồi, khoảnh khắc Huang cầm Blackwell và cho thế giới xem, khán giả đã rất phấn khích.

Nó là con chip lớn nhất thế giới cho đến nay!

Sản phẩm trước mặt bạn thể hiện một lượng công nghệ đáng kinh ngạc.

Theo lời của Huang, nó là “chiếc máy tính phức tạp nhất và có hiệu suất cao nhất từng được tạo ra trên thế giới”.

Trong 8 năm, mức tiêu thụ năng lượng đào tạo của GPT-4 với 1,8 nghìn tỷ tham số đã giảm trực tiếp xuống 1/350 trong khi mức tiêu thụ năng lượng suy luận đã giảm trực tiếp xuống 1/45000;

Tốc độ lặp lại của các sản phẩm của Nvidia đã hoàn toàn bỏ qua Định luật Moore.

Như cư dân mạng đã nói, không sao cả, Lão Hoàng có Định luật Moore của riêng mình.

Với một tay là phần cứng và một tay là CUDA, Lao Huang tự tin vượt qua "lạm phát tính toán" và đưa ra những dự đoán táo bạo - trong tương lai gần, mọi ứng dụng xử lý chuyên sâu sẽ được tăng tốc và mọi trung tâm dữ liệu chắc chắn sẽ được tăng tốc.

Lộ trình cho 3 thế hệ Blackwell tiếp theo cũng được tiết lộ: Blackwell Ultra (2025), Rubin (2026), Rubin Ultra (2027)

Công thức toán học kiểu Huang “mua càng nhiều, tiết kiệm càng nhiều” cũng đã xuất hiện trở lại.

Một kỷ nguyên mới của điện toán bắt đầu

Khi bắt đầu bài phát biểu, Huang lần đầu tiên đưa ra bản trình diễn trong thế giới mô phỏng Omniverse.

Anh cho biết: "NVIDIA nằm ở điểm giao thoa giữa mô phỏng đồ họa máy tính và trí tuệ nhân tạo. Đây chính là 'linh hồn' của chúng tôi".

Tất cả những điều này là sự mô phỏng trong thế giới vật lý và việc hiện thực hóa nó được hưởng lợi từ hai công nghệ cơ bản - điện toán tăng tốc và trí tuệ nhân tạo, sẽ định hình lại ngành công nghiệp máy tính.

Cho đến nay, ngành công nghiệp máy tính đã có lịch sử hơn 60 năm và giờ đây, một kỷ nguyên mới của điện toán đã bắt đầu.

Năm 1964, System 360 của IBM lần đầu tiên giới thiệu CPU và máy tính nói chung tách phần cứng và phần mềm thông qua hệ điều hành. Khả năng tương thích về kiến ​​trúc, khả năng tương thích ngược, v.v., tất cả các công nghệ mà chúng ta biết ngày nay đều xuất phát từ thời điểm này.

Phải đến năm 1995, cuộc cách mạng PC mới bắt đầu, đưa máy tính đến hàng nghìn hộ gia đình và khiến nó trở nên dân chủ hơn. Năm 2007, iPhone ra mắt, đưa "máy tính" trực tiếp vào túi của bạn và kích hoạt kết nối đám mây.

Có thể thấy, trong 60 năm qua, chúng ta đã chứng kiến ​​2-3 nút công nghệ quan trọng thúc đẩy sự chuyển đổi của ngành điện toán.

Tính toán tăng tốc: một mặt là GPU, mặt khác là CUDA

Và bây giờ, chúng ta sẽ chứng kiến ​​lịch sử một lần nữa. Huang nói: “Có hai điều cơ bản nhất đang xảy ra”.

Đầu tiên là mở rộng hiệu suất đã chậm lại đáng kể và lượng tính toán chúng ta cần cũng như dữ liệu chúng ta cần xử lý tăng trưởng theo cấp số nhân.

Theo lời của Huang, chúng ta đang trải qua tình trạng "lạm phát được tính toán".

NVIDIA đã nghiên cứu điện toán tăng tốc trong 20 năm qua. Ví dụ, sự xuất hiện của CUDA đã tăng tốc tải CPU. Trên thực tế, GPU chuyên dụng sẽ hoạt động tốt hơn.

Khi chúng tôi chạy một ứng dụng, chúng tôi không muốn nó là một APP chạy trong 100 giây hoặc thậm chí 100 giờ.

Vì vậy, NVIDIA tiên phong trong lĩnh vực điện toán không đồng nhất, cho phép CPU và GPU chạy song song, tăng tốc 100 đơn vị thời gian vừa qua chỉ còn 1 đơn vị thời gian.

Có thể thấy, nó đã đạt được tốc độ tăng gấp 100 lần, trong khi mức tiêu thụ điện năng chỉ tăng 3 lần và chi phí chỉ gấp 1,5 lần so với ban đầu.

NVIDIA còn trang bị cho trung tâm dữ liệu trị giá hàng tỷ USD GPU trị giá 500 triệu USD, biến nó thành một "nhà máy AI".

Với khả năng tính toán tăng tốc, nhiều công ty trên thế giới có thể tiết kiệm hàng trăm triệu đô la khi xử lý dữ liệu trên đám mây. Điều này cũng khẳng định “công thức toán học” của Lão Hoàng: mua càng nhiều, tiết kiệm càng nhiều.

Ngoài GPU, Nvidia cũng đã làm được một việc mà trong ngành khó có thể đạt được, đó là viết lại phần mềm để tăng tốc hoạt động của phần cứng.

Như minh họa trong hình bên dưới, có các phần mềm CUDA chuyên dụng trong các lĩnh vực như cuDNN học độ sâu, Mô-đun vật lý, RAN truyền thông trên không, Parabricks trình tự gen, cuQUANTUM mô phỏng QC và cuDF xử lý dữ liệu.

Nói cách khác, không có CUDA thì tương đương với việc xử lý đồ họa máy tính không có OpenGL và xử lý dữ liệu không có SQL.

Hiện nay, các hệ sinh thái sử dụng CUDA đã lan rộng khắp thế giới. Mới tuần trước, Google đã thông báo rằng họ sẽ thêm cuDF vào Google Cloud và tăng tốc Pandas, thư viện khoa học dữ liệu phổ biến nhất thế giới.

Giờ đây, bạn có thể sử dụng Pandas trong CoLab chỉ bằng một nhấn. Chỉ cần nhìn tốc độ xử lý dữ liệu là nhanh không tưởng.

Lao Huang cho rằng việc triển khai một nền tảng hoàn toàn mới là một vấn đề nan giải "quả trứng và con gà", và các nhà phát triển cũng như người dùng là không thể thiếu.

Nhưng sau 20 năm phát triển, CUDA đã phá vỡ tình thế tiến thoái lưỡng nan này và đạt được một chu kỳ tích cực thông qua 5 triệu nhà phát triển và người dùng trong vô số lĩnh vực trên khắp thế giới.

Càng nhiều người cài đặt CUDA và chạy nhiều phép tính thì họ càng có thể cải thiện hiệu suất và lặp lại CUDA hiệu quả hơn và tiết kiệm năng lượng hơn.

Định hình lại toàn bộ "AI Factory"

Năm 2012, sự ra đời của mạng nơron AlexNet lần đầu tiên kết nối Nvidia với AI. Chúng ta đều biết rằng bố già AI Hinton và Gao Tu đã hoàn thành khóa đào tạo AlexNet trên hai GPU Nvidia.

Đây là nơi độ sâu learning bắt đầu, mở rộng các thuật toán được phát minh từ nhiều thập kỷ trước với tốc độ không thể tưởng tượng được.

Tuy nhiên, khi kiến ​​trúc mạng thần kinh tiếp tục mở rộng quy mô và “sự thèm muốn”dữ liệu cũng như tính toán của nó ngày càng lớn hơn, Nvidia phải phát minh lại mọi thứ.

Sau năm 2012, NVIDIA đã thay đổi Tensor Core và phát minh ra NvLink, cũng như máy chủ suy luận TensorRT, Triton, v.v., cũng như siêu máy tính DGX.

Vào thời điểm đó, không ai hiểu NVIDIA đang làm gì và cũng không ai sẵn sàng trả tiền cho việc đó.

Kết quả là vào năm 2016, Huang đã đích thân trao siêu máy tính DGX đầu tiên của Nvidia cho OpenAI, một “công ty nhỏ” có trụ sở tại San Francisco.

Kể từ đó, NVIDIA tiếp tục mở rộng, từ siêu máy tính thành trung tâm dữ liệu rất lớn.

Cho đến khi kiến ​​trúc Transformer ra đời vào năm 2017, cần có dữ liệu lớn hơn để đào tạo LLM nhằm xác định và tìm hiểu các mẫu xảy ra liên tục trong một khoảng thời gian.

Sau đó, Nvidia chế tạo những siêu máy tính lớn hơn. Vào tháng 11 năm 2022, ChatGPT, được đào tạo trên hàng chục nghìn GPU NVIDIA, đã ra đời và có thể tương tác như con người.

Đây là lần đầu tiên thế giới chứng kiến ​​AI có khả năng tạo sinh. Nó sẽ xuất ra một mã thông báo tại một thời điểm, có thể là hình ảnh, giọng nói, văn bản, video hoặc thậm chí là mã thông báo thời tiết.

Huang cho biết: "Mọi thứ chúng ta có thể học giờ đây đều có thể được tạo ra. Chúng ta hiện đã bước vào kỷ nguyên mới của AI có khả năng tạo ra."

Chiếc máy tính ban đầu xuất hiện như một siêu máy tính giờ đã trở thành một trung tâm dữ liệu. Nó có thể xuất mã thông báo và biến thành một "nhà máy AI".

Và “nhà máy AI” này đang tạo ra và sản xuất ra những thứ có giá trị khổng lồ.

Vào cuối những năm 1890, Nikola Tesla đã phát minh ra Máy phát điện xoay chiều và hiện tại NVIDIA đang tạo ra Máy phát điện AI có thể xuất mã thông báo.

Những gì NVIDIA mang đến cho thế giới là khả năng tính toán tăng tốc đang dẫn đầu một vòng cách mạng công nghiệp mới.

Lần đầu tiên, nhân loại nhận ra rằng chỉ dựa vào ngành CNTT trị giá 3 nghìn tỷ USD, nhân loại có thể tạo ra mọi thứ có thể phục vụ trực tiếp cho ngành công nghiệp trị giá 100 nghìn tỷ USD.

Sự chuyển đổi từ các nhà máy phần mềm truyền thống sang các nhà máy AI ngày nay đã hiện thực hóa nâng cấp từ CPU lên GPU, từ truy xuất sang tạo ra, từ hướng dẫn đến mô hình lớn và từ công cụ đến kỹ năng.

Có thể thấy rằng Generative AI thúc đẩy việc định hình lại toàn bộ ngăn xếp.

Từ GPU Blackwell đến siêu “nhà máy AI”

Tiếp theo, chúng ta hãy xem NVIDIA biến những con chip Blackwell mạnh nhất hành tinh thành những siêu “nhà máy AI” như thế nào.

Lưu ý rằng sau đây là bo mạch chủ cấp sản xuất được trang bị GPU Blackwell.

Thứ mà Lão Hoàng chỉ ra ở đây chính là CPU Grace.

Và ở đây, chúng ta có thể thấy rõ 2 con chip Blackwell được kết nối với nhau.

Trong 8 năm, Flops của mỗi thế hệ chip Nvidia đã tăng trưởng gấp 1.000 lần.

Đồng thời, Định luật Moore dường như đã dần hết hiệu lực trong 8 năm qua.

Thậm chí, so với những khoảnh khắc đẹp nhất của Định luật Moore, sự cải thiện về tỷ lệ băm của Blackwell thật đáng kinh ngạc.

Kết quả trực tiếp của việc này là giảm đáng kể chi phí.

Ví dụ: mức tiêu thụ năng lượng dùng để huấn luyện GPT-4 với 1,8 nghìn tỷ thông số và 8 nghìn tỷ mã thông báo giảm trực tiếp xuống 1/350!

Pascal cần tiêu thụ 1.000 gigawatt giờ, nghĩa là nó cần một trung tâm dữ liệu 1.000 gigawatt. (1 gigawatt = 1000 megawatt)

Và nếu một trung tâm dữ liệu như vậy thực sự tồn tại, việc đào tạo GPT-4 sẽ mất cả tháng.

Đối với một trung tâm dữ liệu 100 megawatt, phải mất khoảng một năm.

Đây là lý do tại sao các LLM như ChatGPT không thể tồn tại cách đây 8 năm.

Giờ đây với Blackwell, 1.000 GWh trước đây có thể giảm trực tiếp xuống còn 3 GWh.

Có thể nói Blackwell sinh ra để lý luận và tạo ra token. Nó trực tiếp giảm năng lượng trên mỗi mã thông báo xuống 45.000 lần.

Trước đây, mức tiêu thụ để tạo 1 token bằng Pascal tương đương với việc chạy hai bóng đèn 200 watt trong 2 ngày. Hãy để GPT-4 tạo một từ, yêu cầu khoảng 3 mã thông báo. Đơn giản là điều này sẽ không mang lại cho chúng tôi trải nghiệm trò chuyện với GPT-4 ngày nay.

Hiện tại, chúng tôi chỉ có thể sử dụng 0,4 joules cho mỗi mã thông báo và sử dụng rất ít năng lượng để tạo ra các mã thông báo tuyệt vời.

Bối cảnh ra đời của nó là tăng trưởng theo cấp số nhân về quy mô của các mô hình điện toán.

Mọi tăng trưởng theo cấp số nhân đều bước vào một giai đoạn mới.

Khi chúng tôi mở rộng từ DGX sang siêu máy tính AI lớn, Transformer có thể được đào tạo trên các tập dữ liệu quy mô lớn.

Thế hệ AI tiếp theo cần hiểu thế giới vật chất. Tuy nhiên, hầu hết AI ngày nay đều không hiểu các định luật vật lý. Trong đó giải pháp là để AI học dữ liệu video, giải pháp còn lại là tổng hợp dữ liệu.

Phương pháp thứ ba là để các máy tính học hỏi lẫn nhau! Về cơ bản nguyên tắc giống như AlphaGo.

Nhu cầu tính toán rất lớn đang đến, làm thế nào để giải quyết chúng? Cách tiếp cận hiện tại là - chúng ta cần GPU lớn hơn.

Và Blackwell được sinh ra cho việc này.

Có một số cải tiến công nghệ quan trọng ở Blackwell.

Mục đầu tiên là kích thước của chip.

NVIDIA đã liên kết hai trong số những con chip lớn nhất hiện có bằng Chuỗi 10TB/s; sau đó đặt chúng trên cùng một nút máy tính và kết nối chúng với CPU Grace.

Trong quá trình đào tạo, nó được sử dụng cho các điểm kiểm tra nhanh; trong các kịch bản suy luận và tạo, nó có thể được sử dụng để lưu trữ bộ nhớ theo ngữ cảnh.

Hơn nữa, GPU thế hệ thứ hai này còn có mức độ bảo mật cao. Khi sử dụng, chúng ta có thể yêu cầu máy chủ bảo vệ AI khỏi bị đánh cắp hoặc giả mạo.

Hơn nữa, Blackwell sử dụng NVLink thế hệ thứ năm.

Hơn nữa, đây là thế hệ đầu tiên của động cơ đáng tin cậy và có thể sử dụng được,

Với hệ thống này, chúng tôi có thể kiểm tra mọi bóng bán dẫn, flip-flop, bộ nhớ trên chip và bộ nhớ ngoài chip, để chúng tôi có thể xác định ngay tại chỗ xem chip có gặp trục trặc hay không.

Dựa trên điều này, NVIDIA đã rút ngắn thời gian giữa các lần hỏng hóc của 100.000 siêu máy tính GPU xuống còn vài phút.

Vì vậy, nếu chúng ta không phát minh ra công nghệ để làm cho siêu máy tính trở nên đáng tin cậy hơn thì sẽ không thể chạy nó trong thời gian dài và không thể đào tạo các mô hình có thể chạy trong nhiều tháng.

Nếu bạn tăng độ tin cậy, bạn sẽ tăng thời gian hoạt động của mô hình, điều này rõ ràng có tác động trực tiếp đến chi phí.

Cuối cùng, Huang cho biết việc xử lý dữ liệu của công cụ giải nén cũng là một trong những việc quan trọng nhất mà Nvidia phải làm.

Bằng cách thêm công cụ nén dữ liệu và công cụ giải nén, dữ liệu có thể rút từ ​​bộ lưu trữ nhanh hơn 20 lần, nhanh hơn nhiều so với tốc độ hiện tại.

DGX siêu mát làm mát bằng không khí & MGX làm mát bằng chất lỏng mới

Blackwell là một bước tiến lớn nhưng đối với Huang, nó chưa đủ lớn.

NVIDIA không chỉ sản xuất chip mà còn sản xuất máy chủ được trang bị chip tiên tiến nhất. Siêu máy tính DGX với Blackwell đã đạt được bước nhảy vọt về năng lực về mọi mặt.

DGX mới nhất tích hợp chip Blackwell chỉ tiêu thụ năng lượng gấp 10 lần so với Hopper thế hệ trước nhưng mức FLOPS của nó lại tăng tới 45 lần.

DGX Blackwell làm mát bằng không khí bên dưới có 8 GPU bên trong.

Kích thước của bộ tản nhiệt tương ứng cũng rất đáng kinh ngạc, đạt 15kW và làm mát hoàn toàn bằng không khí.

Nếu bạn muốn triển khai hệ thống làm mát bằng chất lỏng thì sao? NVIDIA cũng có mẫu MGX mới.

Một MGX duy nhất tích hợp cùng lúc 72 GPU Blackwell và có NVLink thế hệ thứ năm mới nhất với tốc độ truyền 130TB mỗi giây.

NVLink kết nối các GPU riêng lẻ này với nhau để có được MGX 72 GPU

Sau khi giới thiệu con chip, Huang đặc biệt đề cập đến công nghệ NVLink do NVIDIA phát triển, đây cũng là lý do quan trọng khiến bo mạch chủ của NVIDIA có thể ngày càng lớn hơn.

Vì LLM ngày càng có nhiều tham số và tiêu tốn ngày càng nhiều bộ nhớ nên gần như không thể lắp mô hình vào một GPU duy nhất mà phải xây dựng một cụm. Trong đó, công nghệ giao tiếp GPU cũng quan trọng như sức mạnh tính toán.

NVLink của NVIDIA là công nghệ kết nối GPU tiên tiến nhất thế giới và tốc độ truyền dữ liệu có thể gọi là điên rồ!

Vì DGX ngày nay có 72 GPU, trong khi thế hệ trước chỉ có 8 nên số lượng GPU đã tăng lên gấp 9 lần. Lượng băng thông đã tăng trực tiếp lên 18 lần và AI FLops đã tăng 45 lần, nhưng công suất chỉ tăng 10 lần, tức là 100 kilowatt.

Con chip NVLink dưới đây cũng là một điều kỳ diệu.

Lý do mọi người nhận ra tầm quan trọng của nó là vì nó kết nối tất cả các GPU khác nhau này lại với nhau để có thể chạy LLM tham số 10 tera.

50 tỷ bóng bán dẫn, 74 cổng, 400GB mỗi cổng, băng thông mặt cắt 7,2TB mỗi giây, bản thân nó đã là một điều kỳ diệu.

Quan trọng hơn, NVLink còn có các hàm toán học nội bộ có thể đạt được mức giảm. Điều này đặc biệt quan trọng đối với việc học độ sâu trên chip.

Điều thú vị là công nghệ NVLink đã mở rộng đáng kể trí tưởng tượng của chúng ta về GPU.

Ví dụ, theo quan niệm truyền thống, GPU sẽ trông như thế này.

Nhưng với NVLink, GPU cũng có thể trở nên lớn như thế này.

Bộ khung hỗ trợ 72 GPU là 5.000 sợi cáp của NVLink, có thể tiết kiệm 20kw điện năng tiêu thụ khi truyền tải cho điện toán chip.

Thứ mà Lao Huang cầm trong tay là xương sống NVLink. Theo lời nguyên gốc của Lao Huang, đó là một "phép lạ về điện và cơ khí".

Những gì NVLink làm chỉ là kết nối các chip GPU khác nhau lại với nhau, vì vậy Huang lại nói: “Điều này chưa đủ tham vọng”.

Để kết nối các máy chủ khác nhau trong trung tâm siêu máy tính, công nghệ tiên tiến nhất là "InfiniBand".

Tuy nhiên, nhiều cơ sở hạ tầng và hệ sinh thái trung tâm dữ liệu được xây dựng dựa trên ETH đã từng được sử dụng và chi phí để phá bỏ nó và bắt đầu lại là quá cao.

Do đó, để giúp nhiều trung tâm dữ liệu hơn bước vào kỷ nguyên AI thành công, NVIDIA đã phát triển sê-ri bộ chuyển mạch ETH thích ứng với siêu máy tính AI.

RDMA cấp độ mạng, kiểm soát tắc nghẽn, định tuyến thích ứng và cách ly nhiễu. NVIDIA tận dụng địa vị hàng đầu của mình trong bốn công nghệ này để biến ETH thành mạng phù hợp cho giao tiếp điểm-điểm giữa các GPU.

Điều này cũng có nghĩa là kỷ nguyên của hàng triệu trung tâm dữ liệu GPU đang đến.

28 triệu nhà phát triển trên toàn thế giới triển khai LLM ngay lập tức

Trong nhà máy AI của NVIDIA, một loại phần mềm mới có thể tăng tốc độ suy luận tính toán-NIM đang chạy.

Lao Huang cho biết: “Những gì chúng tôi tạo ra là AI trong một thùng chứa”.

Có lượng lớn phần mềm trong vùng chứa này, trong đó máy chủ suy luận Triton cho các dịch vụ suy luận, mô hình AI được tối ưu hóa, ngăn xếp gốc trên nền tảng đám mây, v.v.

Tại hiện trường, Lao Huang một lần nữa trình diễn mô hình AI tất cả trong một có thể đạt được khả năng tương tác đầy đủ các phương thức. Với NIM, điều này không thành vấn đề.

Nó có thể cung cấp một cách đơn giản, tiêu chuẩn hóa để thêm AI tổng quát vào các ứng dụng, cải thiện đáng kể năng suất của nhà phát triển.

Giờ đây, 28 triệu nhà phát triển trên khắp thế giới có thể tải NIM về trung tâm dữ liệu của riêng họ để lưu trữ và sử dụng.

Trong tương lai, thay vì mất hàng tuần, các nhà phát triển có thể dễ dàng xây dựng các ứng dụng AI có tính tổng quát chỉ trong vài phút.

Đồng thời, NIM cũng hỗ trợ Meta Llama 3-8B, có thể tạo ra số token nhiều hơn tới 3 lần trên cơ sở hạ tầng được tăng tốc.

Bằng cách này, các công ty có thể sử dụng cùng một tài nguyên máy tính để tạo ra nhiều phản hồi hơn.

Các ứng dụng khác nhau dựa trên NIM cũng sẽ xuất hiện, bao gồm con người kỹ thuật số, tác nhân, bản sao kỹ thuật số, v.v.

Lao Huang cho biết, "NVIDIA NIM tích hợp vào nhiều nền tảng khác nhau và các nhà phát triển có thể truy cập và chạy nó ở bất cứ đâu - nó đang giúp ngành công nghệ tạo ra AI trong tầm tay."

Liên kết đại lý, thị trường nghìn tỷ

Và tác nhân thông minh là những ứng dụng quan trọng nhất trong tương lai.

Lao Huang cho biết hầu hết mọi ngành đều cần đại lý dịch vụ khách hàng và có triển vọng thị trường hàng nghìn tỷ USD.

Có thể thấy, trên đầu NIM container, hầu hết các tác nhân đều có nhiệm vụ lý luận, làm rõ nhiệm vụ và phân tách chúng thành nhiều nhiệm vụ. Những người khác chịu trách nhiệm lấy thông tin, tìm kiếm và thậm chí sử dụng các công cụ.

Tất cả các đặc vụ tạo thành một đội.

Trong tương lai, mỗi công ty sẽ có lượng lớn đại lý NIM được kết nối để tạo thành một đội ngũ để hoàn thành nhiệm vụ bất khả thi.

Thân máy GPT-4o, Lão Hoàng đã làm được

Về tương tác giữa người và máy tính, có thể nói Lao Huang và Sam Altman đã nghĩ đến nhau.

Ông nói rằng mặc dù lời nhắc bằng văn bản hoặc giọng nói có thể được sử dụng để đưa ra hướng dẫn cho AI, nhưng trong nhiều ứng dụng, chúng ta vẫn cần một phương thức tương tác tự nhiên và giống con người hơn.

Điều này chỉ ra một trong viễn cảnh mong đợi của Lão Hoàng – con người kỹ thuật số. Họ có thể hấp dẫn và đồng cảm hơn các LLM ngày nay.

Mặc dù GPT-4o đạt được khả năng tương tác giống con người không thể so sánh được, nhưng thứ mà nó thiếu là một "cơ thể".

Nhưng lần, Lao Huang đã giúp OpenAI nghĩ về điều đó.

Trong tương lai, đại sứ thương hiệu có thể không nhất thiết phải là “người thật”, AI sẽ phát huy hết khả năng.

Từ dịch vụ khách hàng đến quảng cáo, trò chơi và các ngành công nghiệp khác, khả năng mà con người kỹ thuật số mang lại sẽ là không giới hạn.

Công nghệ CG được kết nối với Gen AI cũng có thể hiển thị khuôn mặt người thực tế trong thời gian thực.

Xử lý con người kỹ thuật số có độ trễ thấp ở hơn 100 khu vực trên thế giới.

Đây chính là điều kỳ diệu do NVIDIA ACE cung cấp, có thể cung cấp các công cụ AI tương ứng để tạo ra những con người kỹ thuật số sống động như thật.

Giờ đây, NVIDIA có kế hoạch triển khai các vi dịch vụ ACE PC NIM trên 100 triệu máy tính cá nhân và máy tính xách tay RTX AI.

Điều này trong đó mô hình ngôn ngữ nhỏ đầu tiên của NVIDIA - Nemotron-3 4.5B, được thiết kế để chạy trên thiết bị và có độ chính xác và độ chính xác tương tự như LLM trên đám mây.

Ngoài ra, bộ AI kỹ thuật số dành cho con người mới của ACE còn bao gồm NVIDIA Audio2Gesture, công cụ tạo ra các cử chỉ cơ thể dựa trên các bản âm thanh và sẽ sớm ra mắt.

Lao Huang cho biết: "Con người kỹ thuật số sẽ thay đổi hoàn toàn các ngành công nghiệp khác nhau. Những đột phá trong LLM đa phương thức và đồ họa thần kinh do ACE cung cấp sẽ đưa chúng ta đến gần hơn với tương lai của điện toán theo hướng có chủ đích. Tương tác với máy tính sẽ tự nhiên như tương tác với con người." .

Xem trước chip Rubin thế hệ tiếp theo

Sự ra mắt của sê-ri Hopper và Blackwell đánh dấu việc Nvidia dần dần thiết lập một chuỗi công nghệ siêu máy tính AI hoàn chỉnh, bao gồm CPU, chip GPU, công nghệ giao tiếp GPU của NVLink và mạng máy chủ bao gồm NIC và bộ chuyển mạch.

Nếu muốn, bạn có thể có toàn bộ trung tâm dữ liệu của mình được hỗ trợ bởi công nghệ Nvidia.

Cái này đủ lớn và đầy đủ. Nhưng Lão Hoàng cho rằng tốc độ lặp lại của chúng tôi phải được tăng tốc để theo kịp tốc độ cập nhật của GenAI.

NVIDIA gần đây đã thông báo rằng họ sẽ điều chỉnh tốc độ lặp lại GPU từ hai năm một lần xuống mỗi năm một lần và sẽ đẩy ranh giới của tất cả các công nghệ nhanh nhất có thể.

Trong bài phát biểu hôm nay, Lao Huang một lần nữa chính thức công bố bản cập nhật GPU hàng năm. Nhưng anh ta lập tức khoác thêm một lớp áo giáp khác, nói rằng có thể sẽ hối hận.

Bất chấp điều đó, giờ đây chúng ta biết rằng Nvidia sẽ sớm ra mắt Blackwell Ultra và sê-ri Rubin thế hệ tiếp theo vào năm tới.

Từ Trái đất đôi đến Robot AI hiện thân

Ngoài chip và siêu máy chủ, Huang còn cho ra mắt một dự án mà không ai ngờ tới - bản song sinh kỹ thuật số Earth "Earth-2".

Đây có lẽ là dự án đầy tham vọng nhất trên thế giới (nếu không phải là một trong số đó).

Mà dựa theo giọng điệu của Lão Hoàng, có thể suy đoán rằng Earth-2 đã phát triển được vài năm, những đột phá lớn xảy ra trong năm nay khiến hắn cảm thấy đã đến lúc phải thể hiện ra ngoài.

Tại sao lại xây dựng một bản song sinh kỹ thuật số của toàn bộ trái đất? Nó có giống như Metaverse của Xiao Zha, nơi tương tác xã hội và tương tác được chuyển sang nền tảng trực tuyến không?

Không, viễn cảnh mong đợi của Huang còn tham vọng hơn.

Ông hy vọng rằng mô phỏng Earth-2 có thể dự đoán tương lai của toàn bộ hành tinh, từ đó giúp chúng ta đối phó tốt hơn với biến đổi khí hậu và các loại thời tiết khắc nghiệt khác nhau, chẳng hạn như dự đoán điểm đổ bộ của các cơn bão.

Earth-2 kết hợp mô hình AI tổng hợp CorrDiff và được đào tạo dựa trên mô phỏng số WRF. Nó có thể tạo ra các mô hình thời tiết với độ phân giải cao hơn 12 lần, tăng phạm vi từ 25 km lên 2 km.

Nó không chỉ có độ phân giải cao hơn mà còn chạy nhanh hơn 1.000 lần và tiết kiệm năng lượng hơn 3.000 lần so với mô phỏng vật lý nên có thể chạy liên tục trên máy chủ và đưa ra dự đoán theo thời gian thực.

Hơn nữa, bước tiếp theo của Earth-2 là cải thiện độ chính xác dự đoán từ 2 km lên hàng chục mét. Dựa trên cơ sở hạ tầng trong thành phố, nó thậm chí có thể dự đoán khi nào gió mạnh sẽ thổi trên đường phố.

Hơn nữa, Nvidia muốn kết đôi kỹ thuật số không chỉ trái đất mà còn toàn bộ thế giới vật chất.

Về kỷ nguyên AI đang phát triển nhanh chóng này, Huang đã mạnh dạn dự đoán làn sóng tiếp theo – AI vật lý, hay AI thể hiện.

Họ không chỉ cần có khả năng nhận thức siêu cao để hiểu con người và thế giới vật chất mà còn phải có động lực tối đa để hoàn thành nhiệm vụ khác nhau trong thế giới thực.

Hãy tưởng tượng tương lai cyberpunk này: một đàn robot làm việc cùng nhau, giao tiếp và cộng tác như con người, tạo ra nhiều robot hơn trong các nhà máy.

Và không chỉ có robot. Tất cả các vật thể chuyển động sẽ tự động!

Được thúc đẩy bởi AI đa phương thức, chúng có thể học hỏi và nhận thức thế giới, hiểu hướng dẫn của con người và phát triển các kỹ năng lập kế hoạch, điều hướng và di chuyển để hoàn thành nhiệm vụ phức tạp khác nhau.

Vậy bạn huấn luyện những robot này như thế nào? Nếu bạn để chúng tràn lan trong thế giới thực, cái giá phải trả sẽ lớn hơn nhiều so với việc đào tạo LLM.

Tại thời điểm này, thế giới song sinh kỹ thuật số phát huy tác dụng.

Giống như LLM có thể căn chỉnh các giá trị thông qua RLHF, robot cũng có thể tiếp tục thử và sai, học hỏi, bắt chước hành vi của con người và cuối cùng đạt được trí thông minh chung trong thế giới song sinh kỹ thuật số tuân theo các quy luật vật lý.

Omniverse của Nvidia có thể được sử dụng làm nền tảng để xây dựng cặp song sinh kỹ thuật số, tích hợp các mô hình Gen AI, mô phỏng vật lý và công nghệ kết xuất động thời gian thực để trở thành một "phòng tập thể dục robot".

Nvidia, mục tiêu trở thành một công ty toàn diện, không chỉ hài lòng với hệ điều hành. Họ cũng sẽ cung cấp siêu máy tính cho các người mẫu huấn luyện cũng như Jetson Thor và Orin cho các người mẫu đang chạy.

Để thích ứng với các hệ thống robot trong các tình huống ứng dụng khác nhau, Omniverse của NVIDIA sẽ dần dần mở rộng thành hệ sinh thái Warehouse.

Hệ sinh thái này sẽ bao gồm mọi thứ, từ SDK và API phù hợp với ứng dụng, đến giao diện dành cho điện toán AI tiên tiến, cho đến chip tùy chỉnh cấp thấp nhất.

Đối với các sản phẩm full-stack, Nvidia chỉ muốn trở thành “nhóm gia đình” của riêng mình và khiến những người khác không còn nơi nào để đi.

Để làm cho kỷ nguyên robot AI này trông thực tế hơn, vào cuối buổi trình diễn, 9 robot có cùng chiều cao với Huang đã xuất hiện cùng nhau.

Như Huang đã nói, "Đây không phải là tương lai, tất cả đều đang diễn ra ngay bây giờ."

Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" (ID: AI_era), tác giả: Xinzhiyuan, 36 Krypton được phép xuất bản.

Khu vực:
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
3
Thêm vào Yêu thích
1
Bình luận