Trận động đất tiếp theo trong lĩnh vực AI: Tại sao mối nguy hiểm thực sự không phải là kẻ hủy diệt phần mềm dưới dạng dịch vụ (SaaS), mà là cuộc cách mạng tỷ lệ băm?

Bài viết này được dịch máy
Xem bản gốc

Tác giả: Bruce

Gần đây, toàn bộ giới công nghệ và đầu tư đều tập trung vào cùng một điều: các ứng dụng trí tuệ nhân tạo (AI) đang "giết chết" các phần mềm dịch vụ (SaaS) truyền thống. Kể từ khi Claude Cowork của @AnthropicAI chứng minh được AI có thể dễ dàng giúp bạn viết email, tạo bài thuyết trình PowerPoint và phân tích bảng tính Excel, một nỗi lo sợ về "sự diệt vong của phần mềm" đã bắt đầu lan rộng. Điều này chắc chắn đáng sợ, nhưng nếu bạn chỉ tập trung vào điều này, bạn có thể đang bỏ lỡ một sự thay đổi thực sự lớn.

Cứ như thể tất cả chúng ta đang chăm chú theo dõi những trận không chiến giữa các máy bay không người lái, nhưng chẳng ai nhận ra rằng toàn bộ mảng kiến ​​tạo lục địa bên dưới chân chúng ta đang âm thầm dịch chuyển. Cơn bão thực sự đang ẩn giấu dưới bề mặt, ở một góc khuất mà hầu hết mọi người không thể nhìn thấy: nền tảng tỷ lệ băm hỗ trợ toàn bộ thế giới trí tuệ nhân tạo đang trải qua một "cuộc cách mạng thầm lặng".

Cuộc cách mạng này có thể khiến bữa tiệc lớn được tổ chức tỉ mỉ bởi Nvidia (@nvidia), nhà cung cấp công nghệ AI hàng đầu, kết thúc sớm hơn bất kỳ ai tưởng tượng.

Hai con đường cách mạng đang hội tụ.

Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là kết quả của hai con đường công nghệ tưởng chừng như độc lập nhưng lại đan xen vào nhau. Giống như hai đạo quân đang tiến đến gần, chúng đang phát động một cuộc tấn công gọng kìm nhằm vào sự thống trị của Nvidia trong lĩnh vực GPU.

Phương án đầu tiên là một cuộc cách mạng trong việc tối ưu hóa thuật toán.

Bạn đã bao giờ tự hỏi liệu một bộ não siêu việt có thực sự cần sử dụng tất cả các tế bào não của mình khi suy nghĩ về một vấn đề hay không? Rõ ràng là không. DeepSeek đã tìm ra câu trả lời và phát triển kiến ​​trúc MoE (Hybrid Expert Model).

Bạn có thể hình dung nó như một công ty với hàng trăm chuyên gia trong các lĩnh vực khác nhau. Nhưng lần bạn tổ chức một cuộc họp để giải quyết vấn đề, bạn chỉ cần mời hai hoặc ba người phù hợp nhất, thay vì để tất cả mọi người cùng nhau động não. Đó là điểm thông minh của MoE: nó cho phép một mô hình khổng lồ chỉ kích hoạt một nhóm nhỏ "chuyên gia" cho lần phép tính, do đó tiết kiệm đáng kể tỷ lệ băm .

Kết quả sẽ như thế nào? Mô hình DeepSeek-V2 về mặt lý thuyết có 236 tỷ "chuyên gia" (tham số), nhưng chỉ cần kích hoạt 21 tỷ trong đó lần hoạt động, chưa đến 9% tổng số. Tuy nhiên, hiệu năng của nó lại tương đương với GPT-4, vốn yêu cầu 100% công suất tối đa. Điều này có nghĩa là gì? Khả năng của AI không phụ thuộc vào tỷ lệ băm mà nó tiêu thụ!

Trước đây, chúng ta đều cho rằng trí tuệ nhân tạo càng mạnh thì càng tiêu thụ nhiều GPU. Giờ đây, DeepSeek cho chúng ta biết rằng thông qua các thuật toán thông minh, hiệu quả tương tự có thể đạt được với chi phí chỉ bằng một phần mười. Điều này trực tiếp đặt ra một dấu hỏi lớn về bản chất thiết yếu của GPU NVIDIA.

Con đường thứ hai là một cuộc cách mạng về phần cứng.

Các hoạt động của AI được chia thành hai giai đoạn: huấn luyện và suy luận. Huấn luyện giống như việc đi học, đòi hỏi phải đọc rất nhiều tài liệu, và GPU, với khả năng tính toán song song mạnh mẽ, thực sự rất hữu ích trong giai đoạn này. Tuy nhiên, suy luận, giống như việc sử dụng AI hàng ngày của chúng ta, đặt trọng tâm nhiều hơn vào tốc độ phản ứng.

GPU có một hạn chế cố hữu trong quá trình suy luận: bộ nhớ RAM (HBM) của chúng nằm bên ngoài, dẫn đến độ trễ trong truyền dữ liệu. Điều này giống như một đầu bếp có nguyên liệu được cất giữ trong tủ lạnh bên cạnh; họ phải chạy sang lấy chúng lần nấu ăn, điều này không bao giờ nhanh chóng. Các công ty như Cerebras và Groq đã áp dụng một cách tiếp cận khác, thiết kế các chip suy luận chuyên dụng hàn trực tiếp SRAM lên chip, giữ cho các nguyên liệu luôn sẵn sàng và đạt được khả năng truy cập "không độ trễ".

Thị trường đã bỏ phiếu bằng tiền thật. Trong khi OpenAI phàn nàn về khả năng suy luận GPU chưa đủ mạnh của Nvidia, họ ngay lập tức ký một thỏa thuận trị giá 10 tỷ đô la với Cerebras để thuê dịch vụ suy luận của họ. Bản thân Nvidia đã hoảng loạn và nhanh chóng chi 20 tỷ đô la để mua lại Groq, chỉ để tránh bị tụt hậu trong lĩnh vực mới này.

Khi hai con đường giao nhau: Hiện tượng "tuyết lở chi phí"

Được rồi, giờ hãy kết hợp hai điều này lại: sử dụng mô hình DeepSeek được "tối giản" về mặt thuật toán để chạy trên chip Cerebras phần cứng "không độ trễ".

Chuyện gì sẽ xảy ra?

Một cơn lũ chi phí.

Thứ nhất, mô hình thu gọn rất nhỏ và có thể được tích hợp hoàn toàn vào bộ nhớ trong của chip. Thứ hai, không bị hạn chế bởi bộ nhớ ngoài, tốc độ phản hồi của AI sẽ nhanh đến kinh ngạc. Kết quả là chi phí huấn luyện giảm 90% nhờ kiến ​​trúc MoE, và chi phí suy luận giảm thêm một bậc nữa nhờ phần cứng chuyên dụng và điện toán thưa. Tổng cộng, chi phí sở hữu và vận hành một AI đẳng cấp thế giới có thể chỉ bằng 10%-15% so với giải pháp GPU truyền thống.

Đây không phải là sự cải tiến, mà là một sự thay đổi mô hình.

Ngai vàng của Nvidia đang bị âm thầm tước bỏ.

Giờ thì bạn đã hiểu tại sao điều này còn nguy hiểm hơn cả "nỗi sợ hãi khi làm việc chung".

Giá trị vốn hóa thị trường nghìn tỷ đô la của Nvidia ngày nay được xây dựng trên một câu chuyện đơn giản: Trí tuệ nhân tạo (AI) là tương lai, và tương lai của AI phụ thuộc vào GPU của tôi. Nhưng giờ đây, nền tảng của câu chuyện này đang bị lung lay.

Ngay cả khi Nvidia tiếp tục độc chiếm thị trường huấn luyện, quy mô tổng thể của thị trường có thể thu hẹp đáng kể nếu khách hàng có thể hoàn thành công việc chỉ với một phần mười số card đồ họa.

Trong thị trường suy luận, một miếng bánh lớn gấp mười lần thị trường huấn luyện, Nvidia không chỉ thiếu lợi thế tuyệt đối mà còn phải đối mặt với sự bao vây và chèn ép từ nhiều gã khổng lồ như Google và Cerebras. Ngay cả khách hàng lớn nhất của họ, OpenAI, cũng đang rời bỏ họ.

Điều gì sẽ xảy ra với các định giá được xây dựng dựa trên kỳ vọng về một "độc quyền vĩnh viễn" khi Phố Wall nhận ra rằng "công cụ" của Nvidia không còn là lựa chọn duy nhất, hay thậm chí là lựa chọn tốt nhất? Tôi nghĩ mọi người đều biết câu trả lời.

Do đó, sự kiện "thiên nga đen" lớn nhất trong sáu tháng tới có thể không phải là việc ứng dụng AI nào đánh bại ứng dụng nào khác, mà là một tin tức kỹ thuật tưởng chừng như không đáng kể: chẳng hạn như một bài báo mới về hiệu quả của thuật toán MoE, hoặc một báo cáo cho thấy sự gia tăng đáng kể thị thị phần của các chip suy luận chuyên dụng, âm thầm thông báo rằng cuộc chiến tỷ lệ băm đã bước vào một giai đoạn mới.

Khi chiếc xẻng của người bán xẻng không còn là lựa chọn duy nhất của anh ta nữa, thời kỳ hoàng kim của anh ta có thể sắp kết thúc.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận