Trận động đất tiếp theo trong lĩnh vực AI: Tại sao mối nguy hiểm thực sự không phải là kẻ hủy diệt phần mềm dưới dạng dịch vụ (SaaS), mà là cuộc cách mạng tỷ lệ băm?

Bài viết này được dịch máy
Xem bản gốc

Tóm tắt Chainfeeds:

Cuộc cách mạng này có thể chấm dứt bữa tiệc xa hoa được tổ chức tỉ mỉ bởi những kẻ bán xẻng AI sớm hơn bất kỳ ai tưởng tượng.

Nguồn bài viết:

https://www.techflowpost.com/zh-CN/article/30329

Tác giả bài viết:

Bing Ventures


Quan điểm ​​:

Bing Ventures: Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là sự đan xen của hai con đường công nghệ tưởng chừng như độc lập. Con đường đầu tiên là cuộc cách mạng trong việc tinh gọn thuật toán. Trước đây, chúng ta cho rằng để một mô hình siêu lớn trở nên thông minh hơn, nó phải huy động tất cả các tham số để hoạt động hết công suất, tiêu tốn ngày càng nhiều tỷ lệ băm. Nhưng DeepSeek đã phá vỡ quan điểm này với kiến ​​trúc MoE (Hybrid Expert Model). Bạn có thể hình dung MoE như một công ty với hàng trăm chuyên gia, chỉ mời hai hoặc ba người phù hợp nhất tham gia cuộc họp lần khi giải quyết được vấn đề, thay vì để tất cả mọi người cùng nhau động não. Kích thước tổng thể của mô hình vẫn rất lớn, nhưng lần suy luận chỉ kích hoạt một phần rất nhỏ các tham số, do đó giảm đáng kể mức tiêu thụ tỷ lệ băm. DeepSeek-V2 về mặt lý thuyết có 236 tỷ tham số, nhưng lần phép tính thực tế chỉ gọi khoảng 21 tỷ tham số, ít hơn 9% tổng số, trong khi hiệu suất của nó tương đương với GPT-4, vốn cần phải chạy ở tải trọng tối đa. Điều này có nghĩa là lần , khả năng AI và mức tiêu thụ tỷ lệ băm đã được tách rời một cách có hệ thống. Quy tắc bất di bất dịch "càng mạnh càng cần nhiều GPU" đã hoàn toàn bị phá vỡ, và sự phát triển ở cấp độ thuật toán đang trực tiếp làm suy yếu các thuộc tính thiết yếu của GPU NVIDIA. Con đường thứ hai là một cuộc cách mạng phần cứng. Công việc AI được chia thành hai giai đoạn: huấn luyện và suy luận. Huấn luyện nhấn mạnh vào điện toán song song quy mô lớn, nơi GPU có lợi thế tự nhiên; trong khi suy luận nhấn mạnh vào tốc độ phản hồi và hiệu quả năng lượng, nơi GPU gặp phải các nút thắt cổ chai về cấu trúc. Vấn đề cốt lõi là bộ nhớ băng thông cao (HBM) của GPU được thiết kế bên ngoài, và việc truyền dữ liệu qua lại gây ra độ trễ vật lý. Nó giống như một đầu bếp phải chạy đến phòng bên cạnh để lấy nguyên liệu cho từng món ăn – dù nhanh đến đâu, phản hồi tức thời là điều không thể. Các công ty mới nổi như Cerebras và Groq đã chọn cách tái cấu trúc hoàn toàn kiến ​​trúc chip, hàn SRAM tốc độ cao trực tiếp vào bên trong chip để đạt được khả năng truy cập dữ liệu có độ trễ gần bằng không, được thiết kế đặc biệt cho các kịch bản suy luận. Thị trường đã bắt đầu thể hiện quyết định bằng tiền thật: OpenAI, trong khi phàn nàn về chi phí cao và hiệu suất thấp của suy luận GPU, đã ký hợp đồng tỷ lệ băm dài hạn trị giá hàng chục tỷ đô la với Cerebras; Nvidia cũng nhanh chóng tham gia, chi khoảng 20 tỷ đô la để mua lại Groq, nhằm lấp đầy khoảng trống trong lĩnh vực suy luận. Điều này có nghĩa là trọng tâm của điện toán AI đang chuyển từ GPU đa năng sang chip suy luận chuyên dụng. Khi việc tinh gọn thuật toán và tái sử dụng phần cứng hội tụ, chỉ có một kết quả: chi phí giảm mạnh. Mô hình MoE được tinh gọn có kích thước nhỏ hơn đáng kể, cho phép nó được tích hợp hoàn toàn vào bộ nhớ trên chip của chip suy luận; các chip chuyên dụng loại bỏ các nút thắt cổ chai bộ nhớ ngoài, dẫn đến tốc độ suy luận tăng lên gấp nhiều lần. Cuối cùng, chi phí đào tạo giảm khoảng 90% nhờ điện toán thưa, và chi phí suy luận giảm thêm một bậc nữa. Kết hợp lại, tổng chi phí xây dựng và vận hành AI đẳng cấp thế giới có thể chỉ bằng 10%–15% so với các giải pháp GPU truyền thống. Đây không phải là sự cải tiến nhỏ, mà là một sự thay đổi mô hình. Giá trị vốn hóa thị trường nghìn tỷ đô la của Nvidia được xây dựng dựa trên một luận điểm duy nhất: trí tuệ nhân tạo (AI) phải dựa vào GPU. Tuy nhiên, khi các yêu cầu huấn luyện được rút ngắn bởi các thuật toán và thị trường suy luận được chuyển hướng sang các chip chuyên dụng, vị thế độc quyền của họ bắt đầu sụp đổ. Sự kiện "thiên nga đen" lớn nhất trong tương lai có thể không phải là sự bùng nổ phổ biến của một ứng dụng AI cụ thể nào đó, mà là một bài báo mới của Bộ Năng lượng (MoE) tưởng chừng không đáng kể hoặc một báo cáo về thị phần chip suy luận, âm thầm báo hiệu một giai đoạn mới trong cuộc chiến tỷ lệ băm. Khi chiếc xẻng của người bán xẻng không còn độc nhất vô nhị nữa, thời kỳ hoàng kim của họ cũng có thể sắp kết thúc.

Nguồn nội dung

https://chainfeeds.substack.com

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận