Musk chi hàng tỷ USD xây trung tâm siêu máy tính lớn nhất, 100.000 H100 để huấn luyện Grok bắt kịp GPT-4o

avatar
36kr
05-27
Bài viết này được dịch máy
Xem bản gốc

[Giới thiệu] Gần đây, Musk, người đã lâu không có phát triển gì mới, đã đưa ra một tin lớn - công ty khởi nghiệp trí tuệ nhân tạo xAI của ông sẽ đầu tư mạnh vào việc xây dựng một trung tâm siêu máy tính để đảm bảo đào tạo Grok 2 và các phiên bản mới hơn. “Nhà máy siêu máy tính” này dự kiến ​​sẽ hoàn thành vào mùa thu năm 2025 và sẽ có quy mô gấp 4 lần cụm GPU lớn nhất hiện nay.

Cách đây một thời gian, OpenAI, Google và Microsoft lần lượt tổ chức các hội nghị và sự cạnh tranh trong vòng tròn AI đang diễn ra sôi nổi.

Trong thời điểm sôi động như vậy, làm sao có thể vắng mặt Musk?

Cách đây một thời gian, anh ấy bận rộn với Tesla và Chuỗi, nhưng gần đây có vẻ như anh ấy đã bắt đầu rảnh tay và đưa ra một thông báo bom tấn mà không gây ồn ào. Anh ấy trực tiếp đưa ra một tin tức lớn - anh ấy muốn xây dựng thế giới. trung tâm siêu máy tính lớn nhất

Vào tháng 3 năm nay, xAI của anh đã phát hành phiên bản Grok 1.5 mới nhất. Kể từ đó, đã có tin đồn về việc Grok 2 sắp ra mắt nhưng vẫn chưa có tin tức chính thức nào.

Có phải vì tỷ lệ băm không đủ?

Đúng vậy, các tỷ phú có thể không mua đủ chip. Vào tháng 4 năm nay, đích thân ông tuyên bố rằng không có đủ chip tiên tiến, điều này đã làm trì hoãn việc đào tạo và phát hành mẫu Grok 2.

Ông cho biết, Training Grok 2 sẽ yêu cầu khoảng 20.000 GPU Nvidia H100 dựa trên kiến ​​trúc Hopper, đồng thời cho biết thêm rằng các mẫu Grok 3 trở lên sẽ yêu cầu 100.000 chip H100.

Báo cáo tài chính quý đầu tiên của Tesla cũng cho thấy công ty đã bị hạn chế bởi tỷ lệ băm. Vào thời điểm đó, kế hoạch của Musk là triển khai 85.000 GPU H100 vào cuối năm nay và sử dụng 6 tỷ xAI huy động được từ Sequoia Capital và các nhà đầu tư khác. Hầu hết số đô la được chi cho chip.

Mỗi chiếc H100 hiện được bán với giá khoảng 30.000 USD. Không tính chi phí xây dựng và các thiết bị máy chủ khác, riêng con chip này đã có giá 2,8 tỷ USD.

Theo ước tính của Musk, lượng chip dự trữ này là quá đủ để huấn luyện Grok 2.

Nhưng có lẽ sau khi suy nghĩ suốt một tháng, Lão Mã cảm thấy bước đi này chưa đủ lớn, chưa đủ đột phá. Suy cho cùng, định vị của xAI là cạnh tranh trực diện với các đối thủ mạnh như OpenAI và Google. Nếu muốn đào tạo các mô hình trong tương lai, bạn không thể mất chuỗi nhờ tỷ lệ băm.

Do đó, gần đây ông đã công khai tuyên bố rằng xAI cần triển khai 100.000 chiếc H100 để đào tạo và chạy phiên bản tiếp theo của Grok.

Hơn nữa, xAI còn có kế hoạch kết nối tất cả các con chip nối tiếp vào một chiếc máy tính khổng lồ - thứ mà Musk gọi là "Gigafactory of Computing".

Ma đã nói với các nhà đầu tư trong tháng này rằng ông hy vọng siêu máy tính sẽ hoạt động vào mùa thu năm 2025 và ông sẽ "chịu trách nhiệm cá nhân trong việc giao siêu máy tính đúng thời hạn" vì điều này rất quan trọng đối với việc phát triển LLM.

Siêu máy tính này có thể được xAI và Oracle cùng xây dựng. Trong vài năm qua, xAI đã thuê máy chủ với khoảng 16.000 chip H100 từ Oracle, trở thành nguồn đơn đặt hàng lớn nhất cho các chip này.

Nếu không phát triển tỷ lệ băm của riêng mình, xAI có thể sẽ chi 10 tỷ USD cho máy chủ đám mây trong vài năm tới, cuối cùng, việc sử dụng một "nhà máy siêu máy tính" vẫn rẻ hơn.

Cụm GPU lớn nhất hiện nay

Sau khi hoàn thành, “nhà máy siêu máy tính” này sẽ có quy mô ít nhất gấp 4 lần cụm GPU lớn nhất hiện nay.

Ví dụ: dữ liệu do trang web chính thức của Meta công bố vào tháng 3 cho thấy họ đã tung ra hai cụm chứa 24.000 GPU H100 để đào tạo Llama 3.

Mặc dù Nvidia đã thông báo rằng họ sẽ bắt đầu sản xuất và phân phối GPU B100 kiến ​​trúc mới của Blackwell vào nửa cuối năm nay nhưng kế hoạch hiện tại của Musk là mua H100.

Tại sao không sử dụng mẫu chip mới nhất thay vì mua những mẫu chip sắp lỗi thời với số lượng lớn? Lý do cho trong đó đã được chính Huang giải thích cho chúng tôi - "Trong cuộc cạnh tranh AI ngày nay, thời gian rất quan trọng".

NVIDIA sẽ cập nhật thế hệ sản phẩm mới hàng năm và nếu bạn muốn đợi sản phẩm tiếp theo của tôi thì bạn sẽ mất thời gian đào tạo và lợi thế của người đi đầu.

Công ty tiếp theo đạt được cột mốc này công bố một AI đột phá và công ty gần nhất tiếp theo chỉ cải thiện nó 0,3%. Bạn sẽ chọn làm cái nào?

Đó là lý do tại sao việc duy trì là một công ty dẫn đầu về công nghệ là điều quan trọng, để khách hàng sẽ dựa vào bạn và tin tưởng rằng bạn sẽ luôn dẫn đầu. Thời gian rất quan trọng ở đây.

Đây là lý do tại sao khách hàng của tôi vẫn điên cuồng xây dựng hệ thống Hopper. Thời gian là tất cả. Cột mốc tiếp theo sắp đến.

Tuy nhiên, ngay cả khi mọi việc suôn sẻ và “Nhà máy siêu máy tính” được bàn giao đúng thời hạn dưới “trách nhiệm cá nhân” của Musk, vẫn chưa biết liệu cụm này có còn lợi thế về quy mô vào mùa thu tới hay không.

Zuckerberg đã đăng trên Instagram vào tháng 1 năm nay, nói rằng Meta sẽ triển khai thêm 350.000 chiếc H100 vào cuối năm nay. Bao gồm cả tỷ lệ băm trước đó, tổng số tương đương với 600.000 chiếc H100, nhưng anh ấy không đề cập đến số chip của một cụm duy nhất. . Số lượng.

Nhưng con số này gần như tăng gấp đôi trong vòng chưa đầy nửa năm. Trước khi phát hành Llama 3 vào đầu tháng 5, có thông tin cho rằng Meta đã mua thêm 500.000 GPU từ Nvidia, nâng tổng số lên 1 triệu, với giá bán lẻ là 30 USD. tỷ.

Trong khi đó, Microsoft đặt mục tiêu có 1,8 triệu GPU vào cuối năm nay và OpenAI thậm chí còn quyết liệt hơn khi hy vọng sử dụng 10 triệu GPU cho các mẫu AI mới nhất của mình. Hai công ty cũng đang thảo luận về việc phát triển siêu máy tính trị giá 100 tỷ USD chứa hàng triệu GPU Nvidia.

Trong cuộc chiến tỷ lệ băm này, cuối cùng ai sẽ là người chiến thắng?

Có lẽ là NVIDIA.

Và không chỉ H100, CFO Colette Kress của NVIDIA từng đề cập đến danh sách khách hàng ưu tiên cho chip hàng đầu của Blackwell, bao gồm OpenAI, Amazon, Google, xAI, v.v.

B100 sắp được đưa vào sản xuất và những con chip mà NVIDIA sẽ cập nhật hàng năm trong tương lai sẽ tiếp tục được đưa vào các trung tâm siêu máy tính của những gã khổng lồ công nghệ để giúp họ hoàn thành việc nâng cấp và lặp lại tỷ lệ băm .

Thiếu chip và không đủ điện

Khi nói về vấn đề tỷ lệ băm của Tesla, Musk cũng nói thêm rằng mặc dù tình trạng thiếu chip cho đến nay vẫn là hạn chế lớn đối với sự phát triển của AI, nhưng nguồn cung cấp năng lượng sẽ rất quan trọng trong một hoặc hai năm tới và thậm chí có thể thay thế chip là nguồn cung cấp năng lượng lớn nhất. yếu tố hạn chế.

Trong đó việc lựa chọn vị trí của “nhà máy siêu máy tính” mới này, yếu tố quan trọng nhất cần quan tâm chính là nguồn điện. Một trung tâm dữ liệu với 100.000 GPU có thể cần 100 megawatt điện chuyên dụng.

Để cung cấp mức độ quyền lực này, Khu vực Vịnh San Francisco, nơi đặt trụ sở chính của xAI, rõ ràng không phải là một lựa chọn lý tưởng. Để giảm chi phí, các trung tâm dữ liệu thường được xây dựng ở những vùng sâu vùng xa, nơi có nguồn điện rẻ hơn và dồi dào hơn.

Chẳng hạn, ngoài kế hoạch xây dựng siêu máy tính trị giá 100 tỷ USD, Microsoft và OpenAI còn đang xây dựng một trung tâm dữ liệu lớn ở Wisconsin, với chi phí xây dựng khoảng 10 tỷ USD; trung tâm dữ liệu của Amazon Cloud Services đặt tại Arizona.

Một địa điểm rất có thể sẽ đặt “Nhà máy siêu máy tính” là trụ sở chính của Tesla ở Austin, Texas.

Võ đường được Tesla công bố năm ngoái đã được triển khai tại đây. Siêu máy tính này dựa trên một con chip tùy chỉnh để giúp đào tạo phần mềm tự lái AI và cũng có thể được sử dụng để cung cấp dịch vụ đám mây cho thế giới bên ngoài.

Dojo đầu tiên chạy trên 10.000 GPU và tốn khoảng 300 triệu USD để xây dựng. Musk cho biết vào tháng 4 rằng Tesla hiện có tổng cộng 35.000 GPU được sử dụng để đào tạo hệ thống lái tự động.

Đào tạo mô hình trong trung tâm dữ liệu là một quá trình cực kỳ tiêu tốn năng lượng. Người ta ước tính rằng việc huấn luyện GPT-3 tiêu thụ 1.287 megawatt giờ điện, xấp xỉ lượng điện mà 130 hộ gia đình Hoa Kỳ tiêu thụ hàng năm.

Musk không phải là CEO duy nhất nhận thấy vấn đề năng lượng của AI. Bản thân Sam Altman cũng đã đầu tư 375 triệu USD vào công ty khởi nghiệp Helion Energy, nhằm mục đích sử dụng phản ứng tổng hợp hạt nhân để cung cấp phương pháp vận hành trung tâm dữ liệu AI xanh hơn và chi phí thấp hơn.

Musk không đặt cược vào công nghệ nhiệt hạch hạt nhân. Ông cho rằng rằng các công ty AI sẽ sớm bắt đầu cạnh tranh để có được máy biến áp hạ thế, có thể chuyển đổi dòng điện cao thế thành nguồn điện có thể sử dụng được cho lưới điện. ) giảm xuống dưới 1 volt là một giảm rất lớn."

Sau chip, ngành AI cần “máy biến áp cho Transformers”.

Tham khảo:

https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute?rc=epv9gi

https://www.inc.com/ben-sherry/elon-musk-touts-nvidia-dominance-predicts-a-giant-leap-in-ai-power.html

https://finance.yahoo.com/news/jensen-huang-elon-musk-openai-182851783.html?guccounter=1

Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" (ID: AI_era) , biên tập viên: Qiao Yang, buồn ngủ quá, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận