Chuyên gia đầu tư chip của Mỹ: Google TPU hiện đang chiếm ưu thế, nhưng GPU của NVIDIA có lợi thế dài hạn mạnh mẽ hơn.

avatar
ABMedia
12-10
Bài viết này được dịch máy
Xem bản gốc

Trong một cuộc phỏng vấn gần đây, chuyên gia đầu tư chip người Mỹ Gavin Baker đã đưa ra phân tích chuyên sâu về sự khác biệt giữa GPU của NVIDIA (Hopper, Blackwell) và TPU của Google, bao gồm phân tích độ sâu từ các khía cạnh công nghệ, hiệu năng, chi phí và sự phối hợp. Ông chỉ ra rằng mặc dù TPU của Google có lợi thế tạm thời trong ngắn hạn, nhưng hệ sinh thái GPU của NVIDIA vẫn nắm giữ vị thế độc quyền mạnh mẽ hơn về lâu dài.

GPU là nền tảng đa chức năng, trong khi TPU là ASIC đơn điểm.

Baker cho rằng sự bất đồng xung quanh accelerator AI bắt nguồn từ triết lý thiết kế cơ bản của chúng. GPU của NVIDIA, từ Hopper và Blackwell đến Rubin sắp ra mắt, đều nhấn mạnh vào việc trở thành nền tảng toàn diện. Từ chính GPU, công nghệ kết nối hai chiều NVLink, card mạng và bộ chuyển mạch đến các lớp phần mềm như CUDA và TensorRT, NVIDIA xử lý mọi thứ. Khi một công ty mua GPU, về cơ bản họ sẽ có được một hoàn cảnh hoàn chỉnh sẵn sàng cho việc huấn luyện và suy luận, loại bỏ nhu cầu phải lắp ráp mạng lưới hoặc viết lại phần mềm.

Ngược lại, các bộ xử lý TPU của Google (v4, v5e, v6, v7) về cơ bản là các mạch tích hợp chuyên dụng (ASIC), nghĩa là chúng là accelerator được thiết kế đặc biệt cho các phép tính trí tuệ nhân tạo cụ thể. Google chịu trách nhiệm thiết kế logic giao diện người dùng, nhưng phần xử lý phía sau tạo ra bởi Broadcom và sau đó được gia công cho TSMC để sản xuất hàng loạt. Google cũng tích hợp các thành phần thiết yếu khác của TPU, chẳng hạn như bộ chuyển mạch, card mạng và hệ sinh thái phần mềm, khiến sự hợp tác Chuỗi cung ứng phức tạp hơn nhiều so với GPU.

Nhìn chung, ưu điểm của GPU không nằm ở hiệu năng của một chip đơn lẻ, mà ở tính hoàn thiện của toàn bộ nền tảng và hệ sinh thái. Đây cũng là điểm khởi đầu cho khoảng cách cạnh tranh ngày càng rõ rệt giữa hai bên.

Blackwell mang lại một bước nhảy vọt đáng kể về hiệu năng, tạo áp lực lớn hơn lên TPU v6/v7.

Baker chỉ ra rằng khoảng cách hiệu năng giữa GPU và TPU sẽ ngày càng trở nên rõ rệt hơn trong giai đoạn 2024-2025. Sự chuyển đổi của Blackwell từ GB200 sang GB300 thể hiện một bước tiến vượt bậc về kiến ​​trúc, chuyển sang thiết kế làm mát bằng chất lỏng với mức tiêu thụ điện năng trên một rack duy nhất là 130kW và độ phức tạp tổng thể chưa từng có. Việc triển khai lượng lớn chỉ diễn ra được ba hoặc bốn tháng, vẫn đang trong giai đoạn rất mới.

GB300 thế hệ tiếp theo có thể được lắp đặt trực tiếp vào giá đỡ GB200, cho phép mở rộng doanh nghiệp nhanh hơn. xAI, với tốc độ xây dựng trung tâm dữ liệu nhanh trong đó, được coi là một trong những khách hàng đầu tiên tận dụng tối đa hiệu năng của Blackwell. Baker sử dụng phép so sánh này:

"Nếu Hopper được mô tả là máy bay tiên tiến nhất vào cuối Thế chiến II, thì TPU v6/v7 giống như F-4 Phantom, ra đời sau đó hai thế hệ. Mặt khác, Blackwell giống như F-35, thuộc một đẳng cấp hiệu năng hoàn toàn khác."

Điều này cho thấy TPU v6/v7 và Blackwell thuộc các cấp độ phần cứng khác nhau, đồng thời chỉ ra rằng Google Gemini 3 hiện đang sử dụng TPU v6/v7, chứ không phải các thiết bị ở cấp độ Blackwell. Mặc dù Google có thể huấn luyện các mô hình chất lượng cao như Gemini 3 bằng TPU v6/v7, nhưng sự khác biệt về hiệu năng giữa hai kiến ​​trúc này sẽ ngày càng rõ rệt hơn khi sê-ri Blackwell được phát hành rộng rãi.

TPU từng là "vua" của các chip giá rẻ, nhưng GB300 sẽ thay đổi điều đó.

Baker khẳng định rằng lợi thế quan trọng nhất của TPU trong quá khứ là chi phí đào tạo hàng đầu thế giới. Và Google thực sự đã tận dụng lợi thế này để thu hẹp khoảng cách huy động vốn và hoạt động của các đối thủ cạnh tranh.

Tuy nhiên, Baker chỉ ra rằng một khi GB300 được triển khai trên quy mô lớn, các nền tảng đào tạo có chi phí thấp nhất trên thị trường sẽ chuyển sang các công ty sử dụng GB300, đặc biệt là đội ngũ như XAI có khả năng tích hợp theo chiều dọc và các trung tâm dữ liệu tự xây dựng. OpenAI, nếu có thể vượt qua các nút thắt về tỷ lệ băm và phát triển khả năng phần cứng riêng trong tương lai, cũng có thể tham gia vào nhóm GB300.

Điều này có nghĩa là một khi Google mất đi địa vị về chi phí, chiến lược giá thấp trước đây của họ sẽ khó duy trì. Quyền kiểm soát chi phí đào tạo cũng sẽ chuyển từ việc tập trung vào TPU sang việc phân bổ lại thông qua GB300.

Mở rộng và cộng tác GPU diễn ra nhanh hơn, trong khi việc tích hợp TPU lại đòi hỏi nhiều tài nguyên hơn.

Tốc độ phát triển của các mô hình lớn càng nhanh, nhu cầu hợp tác GPU quy mô lớn càng cao, đây là một trong những yếu tố chính dẫn đến việc GPU vượt trội hơn hẳn TPU trong những năm gần đây. Baker chỉ ra rằng các cụm GPU, thông qua NVLink, có thể đẩy quy mô hợp tác lên tới 200.000 đến 300.000 GPU, cho phép các mô hình lớn sử dụng ngân sách huấn luyện lớn hơn. Các trung tâm dữ liệu lớn được XAI xây dựng nhanh chóng cũng buộc NVIDIA phải phát hành các giải pháp tối ưu hóa sớm hơn, đẩy nhanh sự phát triển của toàn bộ hệ sinh thái GPU.

Ngược lại, TPU phức tạp hơn GPU vì Google phải tự tích hợp các thiết bị chuyển mạch và mạng lưới, đồng thời điều phối Chuỗi cung ứng của Broadcom và TSMC.

GPU đang hướng tới chu kỳ một năm, trong khi các thế hệ TPU lại bị hạn chế bởi Chuỗi.

Baker lưu ý rằng để đáp ứng áp lực cạnh tranh từ các chip ASIC, cả Nvidia và AMD đều đang đẩy nhanh chu kỳ cập nhật của mình, với GPU đang hướng tới cách tiếp cận "một thế hệ mỗi năm". Đây là tốc độ rất có lợi cho kỷ nguyên của các mô hình quy mô lớn, vì việc mở rộng kích thước mô hình hầu như không bị gián đoạn.

Tốc độ phát triển và cải tiến của TPU bị hạn chế hơn. Từ phiên bản v1 đến v4, rồi đến v6, mỗi thế hệ đều mất vài năm để hoàn thiện. Các phiên bản v8 và v9 trong tương lai sẽ phải đối mặt với nhiều thách thức hơn nữa vì Chuỗi cung ứng liên quan đến Google, Broadcom, TSMC và các công ty khác, khiến quá trình phát triển và cải tiến chậm hơn so với GPU. Do đó, trong ba năm tới, lợi thế của GPU về tốc độ cải tiến sẽ ngày càng trở nên rõ rệt.

(Sự khác biệt về công nghệ và xu hướng thị trường tương lai của GPU NVIDIA, TPU Google và chip AI tự phát triển của Amazon AWS)

Ba gã khổng lồ rõ ràng đang liên kết với Nvidia, trong khi Google vẫn giữ vững lập trường với TPU của mình.

Hiện tại, bốn nhà cung cấp mô hình hàng đầu thế giới là OpenAI, Gemini (Google), Anthropic và xAI, nhưng xu hướng chung đang ngày càng nghiêng về NVIDIA.

Baker tuyên bố rằng Anthropic đã ký hợp đồng mua sắm dài hạn trị giá 5 tỷ đô la với NVIDIA, chính thức gia nhập phe GPU. xAI là khách hàng lớn nhất của Blackwell và đã đầu tư lượng lớn vào việc xây dựng các trung tâm dữ liệu GPU. Mặt khác, OpenAI phải đối mặt với áp lực chi phí quá lớn do cần phải thuê tỷ lệ băm từ các nhà cung cấp bên ngoài, và do đó hy vọng sẽ giải quyết được nút thắt cổ chai về tỷ lệ băm lâu nay thông qua dự án Stargate.

Trong số bốn công ty, Google là công ty duy nhất sử dụng lượng lớn TPU, nhưng họ cũng đang phải đối mặt với áp lực giảm khả năng cạnh tranh về chi phí và tốc độ phát triển chậm hơn của TPU. Nhìn chung, bức tranh về tỷ lệ băm là tình thế "ba chọi một", với OpenAI, Anthropic và XAI tập trung ở nhóm GPU, trong khi Google tương đối đơn độc ở nhóm TPU.

(Báo cáo tài chính của Nvidia cho thấy doanh thu mạnh mẽ: Việc kinh doanh trung tâm dữ liệu AI đang bùng nổ; Jensen Huang: Blackwell đang bán mình)

Bài viết này, có tiêu đề "Chuyên gia đầu tư chip của Mỹ: Google TPU tạm thời chiếm ưu thế, nhưng GPU của NVIDIA có lợi thế dài hạn hơn", lần đầu tiên xuất hiện trên ABMedia, ABMedia .

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận