Tại sao AI DeepSeek của Trung Quốc lại khiến mọi người kinh ngạc và làm bùng nổ thị trường

avatar
Decrypt
01-27
Bài viết này được dịch máy
Xem bản gốc
Sau đây là bản dịch tiếng Việt:

Một phòng thí nghiệm trí tuệ nhân tạo Trung Quốc đã làm được nhiều hơn chỉ xây dựng một mô hình AI rẻ hơn - nó đã phơi bày sự kém hiệu quả của cách tiếp cận toàn ngành.

Bước đột phá của DeepSeek đã cho thấy cách một nhóm nhỏ, trong nỗ lực tiết kiệm tiền, đã có thể suy nghĩ lại cách xây dựng các mô hình AI. Trong khi các công ty công nghệ lớn như OpenAI và Anthropic chi hàng tỷ đô la cho riêng năng lượng tính toán, DeepSeek được cho là đã đạt được kết quả tương tự chỉ với hơn 5 triệu đô la.

Mô hình của công ty khớp hoặc vượt qua GPT-4o (mô hình ngôn ngữ lớn tốt nhất của OpenAI), OpenAI o1 - mô hình lý luận tốt nhất hiện có của OpenAI - và Claude 3.5 Sonnet của Anthropic trên nhiều bài kiểm tra chuẩn, sử dụng khoảng 2,788 triệu giờ GPU H800 cho việc đào tạo đầy đủ. Đây là một phần rất nhỏ so với phần cứng truyền thống được cho là cần thiết.

Mô hình này rất tốt và hiệu quả, nó đã leo lên vị trí đầu tiên trong danh mục ứng dụng năng suất iOS của Apple trong vài ngày, thách thức sự thống trị của OpenAI.

Sự cần thiết là mẹ của sự sáng tạo. Nhóm này đã có thể đạt được điều này bằng cách sử dụng các kỹ thuật mà các nhà phát triển Mỹ không cần phải xem xét - và thậm chí không thống trị ngày nay. Có lẽ quan trọng nhất là thay vì sử dụng độ chính xác đầy đủ cho các phép tính, DeepSeek đã triển khai đào tạo 8-bit, giảm yêu cầu bộ nhớ đến 75%.

"Họ đã khám phá ra đào tạo điểm nổi dấu phẩy 8-bit, ít nhất là đối với một số số học," Giám đốc điều hành của Perplexity, Aravind Srinivas, nói với CNBC. "Theo hiểu biết của tôi, tôi nghĩ rằng đào tạo điểm nổi dấu phẩy 8 không được hiểu rõ lắm. Hầu hết các hoạt động đào tạo ở Mỹ vẫn đang chạy ở FP16."

FP8 sử dụng băng thông bộ nhớ và lưu trữ ít hơn một nửa so với FP16. Đối với các mô hình AI lớn với hàng tỷ tham số, việc giảm này là đáng kể. DeepSeek cần phải nắm vững điều này vì phần cứng của họ yếu hơn, nhưng OpenAI chưa bao giờ có ràng buộc này.

DeepSeek cũng đã phát triển một hệ thống "đa token" xử lý toàn bộ cụm từ thay vì từng từ riêng lẻ, giúp hệ thống nhanh hơn gấp đôi trong khi vẫn duy trì độ chính xác 90%.

Một kỹ thuật khác họ sử dụng là "giảm sự phân tán" - tạo ra một mô hình nhỏ nhân bản đầu ra của một mô hình lớn hơn mà không cần phải đào tạo nó trên cùng cơ sở dữ liệu kiến thức. Điều này đã làm cho việc phát hành các mô hình nhỏ hơn trở nên cực kỳ hiệu quả, chính xác và cạnh tranh.

Công ty cũng sử dụng một kỹ thuật gọi là "hỗn hợp các chuyên gia", điều này góp phần vào hiệu quả của mô hình. Trong khi các mô hình truyền thống luôn giữ tất cả các tham số của chúng hoạt động liên tục, hệ thống của DeepSeek sử dụng tổng cộng 671 tỷ tham số nhưng chỉ kích hoạt 37 tỷ tại một thời điểm. Nó giống như có một nhóm lớn các chuyên gia, nhưng chỉ gọi những chuyên gia cần thiết cho từng nhiệm vụ cụ thể.

"Chúng tôi sử dụng DeepSeek-R1 làm mô hình giáo viên để tạo ra 800K mẫu đào tạo, và tinh chỉnh một số mô hình nhỏ dày đặc. Kết quả rất hứa hẹn: DeepSeek-R1-Distill-Qwen-1.5B vượt qua GPT-4o và Claude-3.5-Sonnet về các tiêu chuẩn toán học với 28,9% trên AIME và 83,9% trên MATH," DeepSeek đã viết trong bài báo của họ.

Để có bối cảnh, 1,5 tỷ là một lượng tham số rất nhỏ đối với một mô hình, nó không được coi là một mô hình ngôn ngữ lớn (LLM) mà là một mô hình ngôn ngữ nhỏ (SLM). SLM yêu cầu rất ít tính toán và vRAM nên người dùng có thể chạy chúng trên các máy yếu như điện thoại thông minh của họ.

Các hàm ý về chi phí thì thật kinh ngạc. Ngoài việc giảm 95% chi phí đào tạo, API của Deepseek chỉ tính 10 xu cho mỗi triệu token, so với 4,40 đô la cho các dịch vụ tương tự. Một nhà phát triển đã báo cáo xử lý 200.000 yêu cầu API với khoảng 50 xu, với không có giới hạn tốc độ.

"Hiệu ứng DeepSeek" đã trở nên rõ ràng. "Hãy để tôi nói to phần yên lặng: Xây dựng mô hình AI là một cái bẫy tiền," nhà đầu tư Chamath Palihapitiya nói. Và mặc dù có những cú đấm vào DeepSeek, Giám đốc điều hành của OpenAI, Sam Altman, nhanh chóng đạp phanh trong nỗ lực kiếm tiền từ người dùng, sau tất cả những lời khen ngợi trên mạng xã hội về những gì mọi người đạt được miễn phí với DeepSeek so với những gì OpenAI tính phí 200 đô la một tháng.

Trong khi đó, ứng dụng DeepSeek đã đứng đầu bảng tải xuống, và ba trong số sáu kho lưu trữ đang được quan tâm nhất trên Github liên quan đến DeepSeek.

Hầu hết các cổ phiếu AI đều giảm khi các nhà đầu tư nghi ngờ liệu sự phồn vinh có ở mức bong bóng hay không. Cả phần cứng (Nvidia, AMD) và phần mềm (Microsoft, Meta và Google) AI đều chịu hậu quả của sự thay đổi mô hình được cho là do thông báo của DeepSeek và kết quả được chia sẻ bởi người dùng và nhà phát triển.

Thậm chí các token tiền điện tử AI cũng bị ảnh hưởng, với hàng loạt kẻ giả mạo token AI DeepSeek xuất hiện trong một nỗ lực lừa dối degen.

Ngoài sự tàn phá tài chính, bài học rút ra từ tất cả điều này là bước đột phá của DeepSeek cho thấy phát triển AI có thể không cần các trung tâm dữ liệu khổng lồ và phần cứng chuyên dụng. Điều này có thể thay đổi cơ bản cảnh cạnh tranh, biến những gì nhiều người coi là lợi thế vĩnh viễn của các công ty công nghệ lớn thành những bước dẫn đầu tạm thời.

Thời điểm này gần như buồn cười. Chỉ vài ngày trước thông báo của DeepSeek, Tổng thống Trump, Sam Altman của OpenAI và nhà sáng lập Oracle đã công bố Dự án Stargate - một khoản đầu tư 500 tỷ đô la vào cơ sở hạ tầng AI của Mỹ. Trong khi đó, Mark Zuckerberg đã tăng cường cam kết của Meta đổ hàng tỷ đô la vào phát triển AI, và khoản đầu tư 13 tỷ đô la của Microsoft vào OpenAI đột nhiên trông ít giống như sự thông minh chiến lược và nhiều hơn là FOMO tốn kém do lãng phí tài nguyên.

"Bất cứ điều gì bạn đã làm để không để họ bắt kịp cũng không quan trọng," Srinivas nói với CNBC. "Cuối cùng họ cũng bắt kịp được."

Biên tập bởi Andrew Hayward

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
2
Thêm vào Yêu thích
2
Bình luận
Followin logo