AMD MI300 đánh bại NVIDIA H100? Hiệu suất chạy GPT-4 vượt 25%, trận chiến quyết định chip AI sắp bắt đầu.

avatar
36kr
11-06
Bài viết này được dịch máy
Xem bản gốc

[Giới thiệu] Đối diện trận chiến quyết định chip AI sắp tới, nhiều công ty khởi nghiệp về chip đang háo hức thử sức, hy vọng có thể phá vỡ thế độc quyền của Nvidia trong một cú ngã. Và MI300 của AMD thực sự hoạt động tốt hơn H100 khi triển khai mẫu GPT-4 với cửa sổ ngữ cảnh 32K?

Trận chiến quyết định chip AI sắp đến!

Tương lai nào dành cho các công ty khởi nghiệp phát triển phần cứng AI?

Giám đốc điều hành Tenstorrent David Bennett thẳng thắn tuyên bố rằng trong ngành của chúng tôi, kết quả cuối cùng của hầu hết các công ty khởi nghiệp là vỡ nợ.

Làm thế nào để sống sót? Ông gợi ý rằng các công ty khởi nghiệp nên linh hoạt và tránh giới hạn bản thân trong các trường hợp sử dụng hẹp.

Ở đây, Bennett không đề cập đến một thị trường ngách mà đề cập đến một nhóm rộng lớn bao gồm hàng chục công ty từ SiMa.ai đến Cerebras. Họ đã cùng nhau huy động được hàng tỷ USD vốn đầu tư mạo hiểm để cạnh tranh với công ty dẫn đầu thị trường, Nvidia.

Bennett biết rõ điều này. Anh ấy đã làm việc ở bộ phận bán hàng tại AMD hơn mười năm.

Giám đốc điều hành của công ty hiện tại của anh, Tenstorrent, là Jim Keller, một huyền thoại về phần cứng. Ông đã phát triển bộ xử lý A4 và A5 của Apple để cung cấp năng lượng cho iPhone 4 và iPad 2, đồng thời chịu trách nhiệm phát triển phần cứng trên xe tự lái của Tesla từ năm 2016 đến 2018.

Tenstorrent, công ty đã huy động được hơn 300 triệu USD từ các nhà đầu tư bao gồm Fidelity Ventures và Hyundai Motor, đang làm theo lời khuyên của Bennett: cung cấp mọi thứ từ chip đến điện toán đám mây và hơn thế nữa.

Bennett cho biết các công ty khởi nghiệp về chip ngày nay thường đang phân vân giữa việc “chế tạo phần cứng chuyên dụng cho AI” và “dựa vào các mô hình phổ biến hiện nay”.

Nhược điểm của Nvidia: Khó làm chip từ đầu

Câu chuyện về GPU chip AI của Nvidia thực sự mang lại lợi thế cho các startup chip hiện nay.

Các đơn vị xử lý đồ họa ban đầu động lực đồ họa máy tính, nhưng chúng đã thu hút được sự chú ý trong các ứng dụng AI nhờ khả năng thực hiện nhiều phép tính song song.

Tuy nhiên, tai nạn này cũng mang lại bất lợi cho NVIDIA - giờ đây, NVIDIA khó có thể sản xuất chip từ đầu mà không ảnh hưởng đến việc kinh doanh GPU hiện có, và điều này mang đến cơ hội cho các công ty khởi nghiệp mới nổi, tạo ra phần cứng mới được xây dựng riêng cho AI.

Ví dụ: các kỹ sư của Tenstorrent đã thiết kế chip Grayskull cho các mạng thần kinh thưa thớt trong tương lai, trong đó thông tin dư thừa có thể được loại bỏ.

Tuy nhiên, Bennett tin rằng các công ty khởi nghiệp tập trung xây dựng chip cho các mô hình ngôn ngữ lớn bị ràng buộc quá chặt chẽ với kiến ​​trúc Transformer.

Theo kiến ​​trúc này, các mô hình dựa trên Transformer về cơ bản dự đoán từ tiếp theo có khả năng xảy ra nhất, vì vậy chúng đã bị chỉ trích vì tạo ra câu trả lời dựa trên xác suất thay vì lý luận.

Điều này có nghĩa là những kiến ​​trúc mô hình này có thể không tồn tại được trong thời kỳ bùng nổ AI hiện nay.

Xét cho cùng, do sự phát triển nhanh chóng nên tuổi thọ của LLM ngày nay tương đối ngắn. Một mẫu hot hôm qua có thể sẽ hết trong một, hai tuần nữa.

Một lĩnh vực rủi ro khác đối với các công ty phần cứng là sản xuất chip dành riêng cho suy luận.

Đại diện trong vấn đề này là nhà phát triển chip d-Matrix, hãng có kế hoạch phát hành chip suy luận chuyên dụng vào nửa đầu năm tới.

Thoạt nhìn, chiến lược này có vẻ tốt. Người dùng các ứng dụng AI tổng quát giờ đây sẽ ngày càng tận dụng các mô hình nguồn mở hoặc độc quyền hiện có thay vì xây dựng các mô hình của riêng họ từ đầu.

Vì điều này, nhiều người tin rằng nên chi nhiều tiền hơn cho việc suy luận mô hình hơn là đào tạo mô hình.

Mặc dù đây có thể là một bước đi thông minh từ góc độ kinh doanh, Bennett tin rằng việc tập trung quá hẹp vào suy luận sẽ ngăn cản các nhà phát triển phần cứng phục vụ các trường hợp sử dụng khác có thể phổ biến hơn.

Ví dụ: đối với các phép tính có độ chính xác thấp cần thiết để chạy mô hình, một chip suy luận thuần túy sẽ đủ.

Tuy nhiên, nếu các nhà phát triển muốn tinh chỉnh các mô hình lớn, họ có thể sẽ cần một con chip có thể xử lý các phép tính có độ chính xác cao hơn.

Những con chip tiên tiến kết hợp GPU và CPU lại với nhau

Để tồn tại trong trận chiến chip AI Armageddon sắp tới, các nhà phát triển chip cần thay đổi kiến ​​trúc chip của họ.

Ngày nay, hầu hết các chip đều tách biệt GPU và CPU. Cái trước có thể thực hiện nhiều phép tính đồng thời, trong khi cái sau chịu trách nhiệm thực hiện các hướng dẫn chung hơn và quản lý phạm vi hoạt động hệ thống rộng hơn.

Tuy nhiên, ngày càng có nhiều chip tiên tiến (chẳng hạn như siêu chip Grace Hopper của Nvidia và MI300A tung ra của AMD) kết hợp GPU và CPU lại với nhau.

Cách bố trí này cho phép CPU chuẩn bị dữ liệu nhanh hơn và tải dữ liệu lên GPU, do đó tăng tốc quá trình đào tạo mô hình.

Ngoài ra, các startup phần cứng muốn phá vỡ vị trí chủ đạo thị trường của Nvidia cũng phải đối mặt với một trong những trở ngại lớn nhất, đó là lợi thế về phần mềm.

Phần mềm Cuda của Nvidia, vốn được sử dụng để viết các ứng dụng máy học, chỉ có thể chạy trên chip của chính nó. Và điều này thực sự khóa các nhà phát triển vào GPU Nvidia.

AMD MI300 chạy bản cập nhật GPT-4 6

Sự thống trị của Nvidia khó lay chuyển đến vậy?

Các phóng viên Semianalysis Dylan Patel và Myron Xie gần đây đã xuất bản một bài báo nói rằng MI300 của AMD sẽ tốt hơn đáng kể so với H100 của Nvidia về hiệu suất chi phí!

Họ cho rằng với tung ra MI300 thế hệ mới, AMD sẽ sớm trở thành đối thủ cạnh tranh duy nhất của Nvidia và Google trong lĩnh vực suy luận LLM.

Ngược lại, Groq, SambaNova, Intel, Amazon, Microsoft và các công ty khác vẫn không thể cạnh tranh được với nó.

Ngoài ra, để đối phó với hệ thống bảo vệ dựa trên CUDA của Nvidia, AMD đã đầu tư rất nhiều vào phần mềm RoCM, hệ sinh thái PyTorch và Triton của OpenAI.

Khi các công ty như Databricks, AI21, Lamini và Moreph bắt đầu sử dụng GPU AMD để suy luận/đào tạo, hệ sinh thái của AMD ngày càng trở nên hoàn thiện hơn.

Theo những người trong ngành, MI300 với bộ nhớ video lớn hơn sẽ hoạt động tốt hơn khi triển khai các mẫu GPT-4 với cửa sổ ngữ cảnh 32K.

Cụ thể, lợi thế về hiệu suất của MI300 so với H100 là từ 20% đến 25%, tùy thuộc vào độ dài ngữ cảnh và độ dài gợi ý/số lượng mã thông báo đầu ra cho mỗi truy vấn.

Cùng với mức giá thấp hơn, MI300 sẽ tốt hơn đáng kể so với H100 hoặc thậm chí H200 của Nvidia về hiệu suất chi phí.

Các nhà sản xuất lớn đặt lệnh

Hiện tại, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon và các công ty khác đã đặt hàng khoảng 205.000 đơn vị MI300 từ AMD.

Trong số này, 120.000 dành riêng cho Microsoft, 25.000 cho Meta, 12.000 cho Oracle, 8.000 cho Google, 5.000 cho Amazon và 35.000 cho các công ty khác.

Và do số lượng rất lớn nên giá mua MI300 của Microsoft được dự đoán sẽ thấp hơn rất nhiều so với các khách hàng khác.

Để tính toán thu nhập mà MI300 sẽ mang lại cho AMD trong năm tới cần phải phân tích từ hai góc độ: AMD có thể đảm bảo lượng cung cấp bao nhiêu và lượng khách hàng lớn sẽ đặt hàng là bao nhiêu.

Về phía cung, năng lực sản xuất của MI300 sẽ tăng dần trong năm, nhưng vì Nvidia B100 sẽ bắt đầu bán ra vào quý 2 và sẽ tăng đáng kể trong quý 3 với tung ra phiên bản làm mát bằng không khí tiết kiệm chi phí hơn, điều này sẽ không xảy ra trong tương lai gần. Điều này sẽ ảnh hưởng lớn đến bán ra của AMD trong quý 4.

Đồng thời, cũng cần xem xét đầu ra HBM, đầu ra CoWoS, đầu ra đóng gói của các nhà sản xuất bộ nhớ và tình hình của từng accelerator được sản xuất bằng CoWoS, bao gồm NVIDIA, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al Chip, Amazon/Al Chip, Amazon/ Marvell, Microsoft/GUC, v.v.

Dù vậy, giới công nghiệp vẫn tin rằng bán ra MI300X trong quý 4 có thể đạt 110.000 chiếc.

Về phía khách hàng, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect và Amazon là những nguồn đơn đặt hàng chính, nhưng cũng có một số đơn đặt hàng đến từ các bộ phận khác của Chuỗi cung ứng, bao gồm một số MI300A dành cho các ứng dụng loại HPC.

Về lợi nhuận, Nvidia không có dấu hiệu giảm giá mà chỉ tăng dung lượng/băng thông HBM trong khi giữ nguyên giá. So với hệ số biên lợi nhuận trên 80% của Nvidia, hệ số biên lợi nhuận của AMD trên MI300 hầu như không vượt quá 50%.

Giám đốc điều hành AMD Su Zifeng cho biết dựa trên sự tiến bộ nhanh chóng của công ty trong lĩnh vực AI và cam kết mua hàng của khách hàng điện toán đám mây, thu nhập GPU của trung tâm dữ liệu dự kiến ​​sẽ đạt 400 triệu USD trong quý 4 và vượt 2 tỷ USD vào năm 2024.

Tăng trưởng này cũng sẽ đưa MI300 trở thành sản phẩm nhanh nhất trong lịch sử AMD đạt doanh thu 1 tỷ USD.

Về vấn đề này, ngành công nghiệp lạc quan hơn về doanh thu của MI300X - dự kiến ​​sẽ đạt 3,5 tỷ USD.

Đánh giá từ thị thị phần hiện tại của AMD là dưới 0,1% trong lĩnh vực đào tạo và suy luận LLM, thị thị phần của AMD trong lĩnh vực trung tâm dữ liệu sẽ vẫn tăng trưởng đều đặn.

Người giới thiệu:

https://www.theinformation.com/articles/an-ai-chip-armageddon-is-coming-biden-punts-on-open-source-llms?rc=epv9gi

https://www.semianalysis.com/p/amd-mi300-ramp-gpt-4-performance

Bài viết này đến từ tài khoản công khai WeChat "Xin Zhiyuan" (ID: AI_era) , biên tập viên: Hao Kong Aeneas và 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận