Tại sao DeepSeek lại gây hoang mang ở Thung lũng Silicon?

01-31

Bài viết này được dịch máy

Xem bản gốc

Nguồn: Quantum

Phải mất khoảng một tháng để thế giới tài chính bắt đầu hoảng loạn về DeepSeek, nhưng khi sự hoảng loạn thực sự xảy ra, giá trị vốn hóa thị trường của Nvidia đã giảm hơn 500 tỷ đô la (khoảng 3,6 nghìn tỷ nhân dân tệ), tương đương với toàn bộ vũ trụ giữa các vì sao. Cửa. Không chỉ riêng Nvidia. Giá trị vốn hóa thị trường của Tesla, Google, Amazon và Microsoft đều đã giảm.

Theo Alexander Wang, CEO của Scale AI, hai mô hình AI được DeepSeek phát hành liên tiếp có thể so sánh với các mô hình tốt nhất từ các phòng thí nghiệm của Hoa Kỳ. Và DeepSeek dường như chỉ hoạt động trong những điều kiện hạn chế, nghĩa là việc đào tạo nó rẻ hơn nhiều so với các đối thủ ở Mỹ. Người ta nói rằng chi phí đào tạo cuối cùng của một trong những mô hình mới nhất chỉ là 5,6 triệu đô la Mỹ (khoảng 40,6 triệu nhân dân tệ), tương đương với mức lương của các chuyên gia trí tuệ nhân tạo người Mỹ. Năm ngoái, Tổng giám đốc điều hành của Anthropic, Dario Amodei cho biết chi phí đào tạo một người mẫu dao động từ 100 triệu đô la (khoảng 725 triệu nhân dân tệ) đến 1 tỷ đô la (khoảng 7,251 tỷ nhân dân tệ). Theo CEO Sam Altman, GPT-4 của OpenAI có giá hơn 100 triệu đô la (khoảng 725 triệu nhân dân tệ). DeepSeek dường như Sự lật đổ nhận thức của chúng ta về chi phí của AI và có thể có tác động to lớn đến toàn bộ ngành.

Mọi chuyện này chỉ xảy ra trong vài tuần. Vào ngày Giáng sinh, DeepSeek đã phát hành một mô hình suy luận (v3) thu hút được sự chú ý rộng rãi. Mẫu xe thứ hai, R1, đã được ra mắt vào tuần trước và được nhà đầu tư rủi ro và cố vấn của Tổng thống Trump, Marc Andreessen, gọi là "một trong những đột phá đáng kinh ngạc và ấn tượng nhất mà tôi từng thấy". David Sacks, chuyên gia về AI và crypto của Trump, cho biết tiến trình của mô hình DeepSeek cho thấy "cuộc đua AI sẽ rất khốc liệt". Cả hai mô hình đều là mã nguồn mở một phần, ngoại trừ dữ liệu đào tạo.

Thành công của DeepSeek đặt ra câu hỏi liệu hàng tỷ đô la sức mạnh tính toán có thực sự cần thiết để giành chiến thắng trong cuộc đua AI hay không. Từ lâu, quan điểm ta cho rằng rằng các công ty công nghệ lớn sẽ vị trí chủ đạo lĩnh vực trí tuệ nhân tạo, đơn giản vì họ có tiền mặt để theo đuổi những tiến bộ. Hiện nay có vẻ như các công ty công nghệ lớn chỉ đang đốt tiền. Việc tính toán chi phí thực tế của các mô hình này khá khó khăn vì, như Wang của Scale AI chỉ ra, DeepSeek có thể không thể trung thực về loại GPU và số lượng GPU mà họ có do lệnh trừng phạt.

Leandro von Vera, người đứng đầu bộ phận nghiên cứu tại Hugging Face, cho biết ngay cả khi những lời chỉ trích là đúng, DeepSeek vẫn không trung thực về số lượng GPU mà họ có (phép tính trên khăn ăn cho thấy họ sử dụng các kỹ thuật tối ưu hóa, có nghĩa là họ đang nói Thành thật mà nói ), sẽ không mất nhiều thời gian để cộng đồng mã nguồn mở tìm ra điều này. Đội ngũ của ông đã bắt đầu sao chép và mã nguồn mở công thức R1 vào cuối tuần trước, và khi các nhà nghiên cứu có thể tạo ra phiên bản mô hình của riêng họ, "chúng ta sẽ sớm biết được liệu những con số có chính xác hay không".

DeepSeek là gì?

DeepSeek, công ty khởi nghiệp AI hàng đầu của Trung Quốc, được thành lập cách đây hai năm, do CEO Liang Wenfeng đứng đầu. Công ty này, được phân tách từ Quỹ phòng hộ do các kỹ sư từ Đại học Chiết Giang thành lập, tập trung vào "những cải tiến về kiến trúc và thuật toán có khả năng thay đổi cuộc chơi" để tạo ra trí tuệ nhân tạo tổng quát (AGI) — ít nhất thì đó là những gì Liang Wenfeng nói. Không giống như OpenAI, công ty này cũng tuyên bố có lợi nhuận.

Vào năm 2021, Liang bắt đầu mua hàng nghìn GPU Nvidia (ngay trước khi Hoa Kỳ áp đặt lệnh trừng phạt đối với chip) và vào năm 2023, anh đã ra mắt DeepSeek với mục tiêu "khám phá bản chất của trí tuệ nhân tạo nói chung" hay AI thông minh như con người. Giống như CEO của OpenAI Altman và nhiều nhà lãnh đạo khác trong ngành, Liang có rất nhiều phát biểu quan trọng. Liang cho biết trong một cuộc phỏng vấn: “Mục tiêu của chúng tôi là trí tuệ nhân tạo nói chung, điều đó có nghĩa là chúng tôi cần nghiên cứu các cấu trúc mô hình mới để đạt được khả năng mô hình mạnh hơn với nguồn lực hạn chế”.

DeepSeek thực hiện chính xác điều đó. Đội ngũ đã áp dụng một số phương pháp kỹ thuật sáng tạo để cho phép mô hình của mình chạy hiệu quả hơn và tuyên bố rằng chi phí đào tạo cuối cùng của R1 là 5,6 triệu đô la Mỹ (khoảng 406 tỷ nhân dân tệ). Đây là mức giảm 95% so với o1 của OpenAI. Thay vì bắt đầu từ con số 0, DeepSeek đã sử dụng các mô hình mã nguồn mở hiện có làm điểm khởi đầu để xây dựng AI của mình — cụ thể, các nhà nghiên cứu đã sử dụng mô hình Llama của Meta làm nền tảng. Mặc dù dữ liệu đào tạo của công ty không được tiết lộ, DeepSeek đã đề cập rằng công ty sử dụng dữ liệu tổng hợp hoặc thông tin được tạo ra một cách nhân tạo (điều này có thể trở nên quan trọng hơn khi các phòng thí nghiệm AI dường như đang gặp phải tình trạng tắc nghẽn dữ liệu).

Nếu không có dữ liệu đào tạo, không rõ mức độ này là "bản sao" của o1 đến mức nào — DeepSeek có sử dụng o1 để đào tạo R1 không? Khi bài báo đầu tiên được xuất bản vào tháng 12, Altman đã viết rằng "tương đối dễ để sao chép thứ mà bạn biết là hiệu quả", trong khi "làm điều gì đó mới mẻ, mạo hiểm và khó khăn khi bạn không biết liệu nó có hiệu quả hay không thì không hề dễ dàng". Mọi thứ cực kỳ khó khăn.” Vì vậy, lập luận của DeepSeek là nó không tạo ra các mô hình tiên tiến mới; nó chỉ sao chép các mô hình cũ. Nhà đầu tư của OpenAI, Joshua Kushner cũng cho biết rằng DeepSeek được "đào tạo dựa trên các mô hình tiên tiến nhất từ Thung lũng Silicon".

Miles Brundage, cựu nghiên cứu viên chính sách tại OpenAI, cho biết R1 sử dụng hai kỹ thuật tối ưu hóa chính: đào tạo trước hiệu quả hơn và học tăng cường suy luận Chuỗi suy nghĩ. DeepSeek đã tìm ra một phương pháp thông minh hơn để đào tạo AI bằng cách sử dụng GPU rẻ hơn, trong đó phần là nhờ sử dụng một kỹ thuật mới hơn yêu cầu AI phải "suy nghĩ" về các vấn đề từng bước thông qua thử nghiệm và sai sót (học tăng cường), thay vì thực hiện từng cái một. . Bắt chước con người. Sự kết hợp này cho phép mô hình đạt được khả năng cấp độ o1 trong khi sử dụng ít sức mạnh tính toán và tiền bạc hơn.

Brundage cho biết: “DeepSeek v3 và DeepSeek v2 trước đó về cơ bản là các mô hình giống như GPT-4, chỉ có các thủ thuật kỹ thuật khéo léo để tận dụng tối đa hiệu suất của GPU”.

Cần lưu ý rằng các phòng thí nghiệm khác cũng đã áp dụng các kỹ thuật này (DeepSeek sử dụng kỹ thuật “hỗn hợp các chuyên gia” để chỉ kích hoạt một phần các tính năng của mô hình cho một truy vấn cụ thể. GPT-4 cũng sử dụng phương pháp này). Phiên bản DeepSeek cải tiến khái niệm này bằng cách tạo ra các danh mục chuyên gia tinh vi hơn và phát triển những cách hiệu quả hơn để truyền đạt thông tin, giúp quá trình đào tạo trở nên hiệu quả hơn. Đội ngũ DeepSeek cũng đã phát triển một công nghệ có tên là DeepSeekMLA (Multi-Headed Unawareness), giúp giảm đáng kể bộ nhớ cần thiết để chạy các mô hình AI bằng cách nén cách các mô hình lưu trữ và truy xuất thông tin.

Brundage cho biết điều khiến thế giới sửng sốt không chỉ là kiến trúc của những mô hình này, mà còn là thực tế rằng chúng có thể sao chép những thành tựu của OpenAI một cách nhanh chóng chỉ trong vài tháng, thay vì phải mất một năm hoặc lâu hơn nữa như thông lệ giữa các bước tiến lớn trong trí tuệ nhân tạo. Đã thêm.

OpenAI tự định vị mình là công ty có khả năng xây dựng AI tiên tiến và hồ sơ công khai đó đã thu hút được các nhà đầu tư để xây dựng cơ sở hạ tầng trung tâm dữ liệu AI lớn nhất thế giới. Nhưng tốc độ sao chép nhanh chóng của DeepSeek cho thấy những lợi thế về công nghệ không tồn tại lâu, ngay cả khi công ty cố gắng giữ bí mật phương pháp của mình.

“Ở một mức độ nào đó, những công ty đóng cửa này rõ ràng tồn tại nhờ vào cho rằng của mọi người rằng họ đang làm điều tuyệt vời nhất, và đó là phương pháp họ duy trì định giá của mình. Có thể họ phóng đại một chút để huy động thêm tiền hoặc xây dựng thêm nhiều dự án hơn”, von Vera cho biết . “Không ai biết liệu họ có phóng đại sức mạnh nội tại của mình hay không, nhưng rõ ràng là điều đó có lợi cho họ.”

Nói về tiền bạc

Kể từ khi OpenAI phát hành ChatGPT vào năm 2022, cộng đồng đầu tư đã mơ mộng về trí tuệ nhân tạo. Câu hỏi không phải là liệu chúng ta có đang ở trong bong bóng AI hay không, mà là "Liệu bong bóng có thực sự là điều tốt không?" ("Bong bóng đã bị hiểu theo nghĩa tiêu cực một cách không công bằng", Deepwater Tài sản Management đã viết vào năm 2023.)

Không rõ các nhà đầu tư có hiểu rõ cách thức hoạt động của AI hay không, nhưng họ hy vọng ít nhất nó sẽ giúp tiết kiệm chi phí trên diện rộng. Một báo cáo do PwC công bố vào tháng 12 năm 2024 cho thấy hai phần ba số nhà đầu tư được khảo sát kỳ vọng AI sẽ làm tăng năng suất và một số lượng tương tự kỳ vọng lợi nhuận sẽ tăng.

Công ty đại chúng được hưởng lợi nhiều nhất từ chu kỳ cường điệu này là Nvidia, công ty sản xuất chip tiên tiến được các công ty trí tuệ nhân tạo sử dụng. Mọi người cho rằng rằng trong cơn sốt AI, mua cổ phiếu Nvidia chính là đầu tư vào công ty sản xuất xẻng. Bất kỳ ai vị trí chủ đạo cuộc đua AI đều sẽ cần lượng lớn chip Nvidia để chạy mô hình của mình. Vào ngày 27 tháng 12, giá cổ phiếu của Nvidia đóng cửa ở mức 137,01 đô la (khoảng 993,42 nhân dân tệ) - gần gấp 10 lần giá cổ phiếu của Nvidia vào đầu tháng 1 năm 2023.

Thành công của DeepSeek Sự lật đổ luận điểm đầu tư đã thúc đẩy cổ phiếu Nvidia tăng vọt. Nếu công ty thực sự sử dụng chip hiệu quả hơn (thay vì chỉ mua thêm chip), thì các công ty khác cũng sẽ bắt đầu làm như vậy. Điều đó có thể có nghĩa là thị trường dành cho các loại chip tiên tiến nhất của Nvidia sẽ thu hẹp lại khi các công ty cố gắng cắt giảm chi tiêu.

Naveen Rao, phó chủ tịch trí tuệ nhân tạo tại Databricks, cho biết: "Kỳ vọng tăng trưởng của Nvidia thực sự có phần 'lạc quan', vì vậy tôi cho rằng đây là phản ứng cần thiết". “Doanh thu hiện tại của Nvidia khó có thể bị đe dọa; nhưng tăng trưởng mạnh mẽ của vài năm qua có thể bị ảnh hưởng.”

Nvidia không phải là công ty duy nhất theo đuổi triết lý đầu tư này. Năm 2023, “Bảy ông lớn” gồm Nvidia, Meta, Amazon, Tesla, Apple, Microsoft và Alphabet đã vượt trội so với phần còn lại của thị trường, tăng trưởng giá trị 75%. Họ tiếp tục thị trường bò đáng kinh ngạc này vào năm 2024, khi hầu hết các công ty, trừ Microsoft, đều vượt trội hơn S&P 500. Trong đó, chỉ có Apple và Meta không bị ảnh hưởng bởi sự cố DeepSeek.

Sự vội vã không chỉ giới hạn ở các thị trường công cộng. Khi công ty đầu tư mạo hiểm đổ tiền vào lĩnh vực này, các công ty khởi nghiệp như OpenAI và Anthropic đã đạt được mức định giá đáng kinh ngạc lần lượt là 157 tỷ đô la và 60 tỷ đô la. Lợi nhuận không phải là vấn đề lớn. OpenAI dự kiến lỗ vốn 5 tỷ đô la (khoảng 36,3 tỷ nhân dân tệ) vào năm 2024, mặc dù thu nhập dự kiến là 3,7 tỷ đô la (khoảng 26,8 tỷ nhân dân tệ).

Thành công của DeepSeek cho thấy việc chỉ bỏ ra lượng lớn tiền không mang lại hiệu quả bảo vệ như nhiều công ty và nhà đầu tư nghĩ. Điều này cho thấy các công ty khởi nghiệp nhỏ có thể cạnh tranh tốt hơn với những công ty lớn, thậm chí có thể Sự lật đổ các công ty dẫn đầu thông qua đổi mới công nghệ. Vì vậy, trong khi đây là tin xấu đối với những gã khổng lồ, nó có thể là tin tốt cho các công ty khởi nghiệp AI nhỏ hơn, đặc biệt là vì mô hình của họ là mã nguồn mở.

Vì vậy, trong khi đây là tin xấu đối với những gã khổng lồ, nó có thể là tin tốt cho các công ty khởi nghiệp AI nhỏ hơn, đặc biệt là vì mô hình của họ là mã nguồn mở. Von Vera của Hugging Face cho rằng rằng các mô hình đào tạo rẻ hơn sẽ không thực sự làm giảm yêu cầu về GPU. “Nếu bạn có thể xây dựng một mô hình siêu mạnh mẽ ở quy mô nhỏ hơn, tại sao lại không mở rộng nó lên một lần nữa?” ông hỏi. “Điều bạn thường làm là tìm ra cách làm một thứ gì đó rẻ hơn, vậy tại sao không mở rộng quy mô và xây dựng một phiên bản tốt hơn với chi phí cao hơn?”

Cần phải tối ưu hóa

Nhưng DeepSeek không chỉ làm thay đổi bối cảnh đầu tư mà còn phát đi một tín hiệu rõ ràng. Tiến bộ đạt được của mô hình DeepSeek cho thấy các quốc gia đối thủ có thể dễ dàng bắt kịp công nghệ tiên tiến nhất của Hoa Kỳ, ngay cả khi áp dụng biện pháp kiểm soát xuất khẩu.

Lennart Heim, một chuyên gia tại Rand Corporation, và Sihao Huang, một nghiên cứu sinh tiến sĩ tại Đại học Oxford chuyên về chính sách công nghiệp, cho rằng rằng việc kiểm soát xuất khẩu đối với các loại chip tiên tiến nhất, chính thức bắt đầu vào tháng 10 năm 2023, là tương đối mới và tác động đầy đủ của chúng vẫn chưa được nhìn thấy.

DeepSeek cho thấy rằng mặc dù sức mạnh tính toán có hạn, bạn vẫn có thể đổi mới thông qua tối ưu hóa, trong khi Hoa Kỳ đang đặt cược lớn vào sức mạnh thô - từ Altman đến quan hệ đối tác trị giá 500 tỷ đô la (khoảng 362,54 tỷ nhân dân tệ) của Trump. Điều này có thể thấy từ dự án "Stargate".

Brundage cho biết: “Các mô hình suy luận như R1 của DeepSeek lượng lớn GPU và DeepSeek nhanh chóng gặp sự cố khi cung cấp ứng dụng cho nhiều người dùng hơn”. “Với thực tế này và việc mở rộng quy mô học tăng cường sẽ khiến các mô hình của DeepSeek thậm chí còn mạnh mẽ hơn hiện nay, điều quan trọng hơn bao giờ hết là Hoa Kỳ phải thực thi các biện pháp kiểm soát xuất khẩu hiệu quả đối với GPU”.

Một số người hoài nghi về những thành tựu của DeepSeek như mô tả. Nhà phân tích Atif Malik của Citi cho biết trong một báo cáo nghiên cứu: "Chúng tôi đặt câu hỏi liệu thành tựu của DeepSeek có đạt được mà không sử dụng GPU tiên tiến để tinh chỉnh và/hoặc xây dựng mô hình ngôn ngữ lớn cơ bản mà mô hình cuối cùng dựa trên hay không". Nhà phân tích Stacey Rasgon của Bernstein cho biết trong báo cáo của riêng mình: "Tuyên bố rằng 'DeepSeek đã sao chép OpenAI với giá 5 triệu đô la' có vẻ hoàn toàn sai sự thật và chúng tôi cho rằng thực sự không đáng để thảo luận thêm".

Với những người khác, kiểm soát xuất khẩu có vẻ phản tác dụng: Thay vì làm chậm sự phát triển ở các nước đối thủ, chúng buộc họ phải đổi mới. Trong khi Hoa Kỳ hạn chế quyền truy cập vào chip tiên tiến, các công ty như DeepSeek và Tongyi Qianwen thuộc sở hữu của Alibaba đã tìm ra phương pháp sáng tạo — tối ưu hóa các kỹ thuật đào tạo và tận dụng công nghệ mã nguồn mở trong khi phát triển chip của riêng họ.

Một số người chắc hẳn sẽ thắc mắc điều này có ý nghĩa gì đối với trí tuệ nhân tạo nói chung, điều mà các chuyên gia AI thông thái nhất cho rằng chỉ là viễn cảnh không tưởng để thu hút vốn. (Tháng 12 năm ngoái, Altman của OpenAI đã hạ thấp đáng kể tiêu chuẩn cho AI nói chung từ thứ có thể "nâng cao nhân loại" thành thứ "ít quan trọng hơn nhiều so với suy nghĩ của mọi người"). Vì siêu trí tuệ AI rất Đây vẫn chủ yếu là một tưởng tượng, vì vậy rất khó để biết liệu điều đó có khả thi hay không — chưa nói đến việc DeepSeek là một bước tiến hợp lý theo hướng đó. Theo nghĩa đó, logo hình cá voi của công ty hoàn toàn chính xác; đây là một ngành công nghiệp đầy rẫy những Ahab. Không ai có thể dự đoán được kết quả cuối cùng của trí tuệ nhân tạo.

Yêu cầu đối với các nhà lãnh đạo AI tương lai

AI là câu chuyện về sự dư thừa: các trung tâm dữ liệu tiêu thụ năng lượng bằng kích thước của một quốc gia nhỏ, chi phí đào tạo lên tới hàng tỷ đô la và chỉ những gã khổng lồ công nghệ mới có thể tham gia trò chơi này. Với nhiều người, sự xuất hiện của DeepSeek dường như đã hoàn toàn Sự lật đổ quan điểm này.

Trong khi các mô hình như DeepSeek có vẻ như có thể giải quyết vấn đề AI hoàn cảnh bằng cách giảm chi phí đào tạo, thì thật không may, mọi thứ không đơn giản như vậy. Cả Brundage và von Villa cho rằng rằng các nguồn lực hiệu quả hơn có nghĩa là các công ty có thể sử dụng nhiều sức mạnh tính toán hơn để có được các mô hình tốt hơn. Von Vera cũng cho biết điều này có nghĩa là các công ty khởi nghiệp và nhà nghiên cứu nhỏ hơn sẽ dễ dàng tiếp cận các mô hình tốt nhất, do đó nhu cầu về điện toán sẽ chỉ tăng lên.

Việc DeepSeek sử dụng dữ liệu tổng hợp cũng không phải là một cuộc cách mạng, nhưng nó cho thấy các phòng thí nghiệm AI có thể tạo ra thứ gì đó hữu ích mà không cần phá hủy toàn bộ internet. Nhưng thiệt hại đã xảy ra; chỉ có một mạng internet duy nhất và nó đã đào tạo các mô hình sẽ đóng vai trò cơ bản cho thế hệ tiếp theo. Dữ liệu tổng hợp không giải quyết hoàn toàn vấn đề tìm kiếm thêm dữ liệu đào tạo, nhưng đây là một phương pháp đầy hứa hẹn.

Điều quan trọng nhất mà DeepSeek làm được là: nó rẻ hơn. Bạn không cần phải am hiểu công nghệ để hiểu rằng các công cụ trí tuệ nhân tạo mạnh mẽ có thể sớm trở nên dễ mua hơn. Các nhà lãnh đạo AI đã hứa rằng tiến bộ sẽ sớm đạt được. Một thay đổi có thể xảy ra là bây giờ ai đó có thể chế tạo một mẫu Frontier trong gara của mình.

Cuộc chạy đua về trí tuệ nhân tạo nói chung phần lớn chỉ là tưởng tượng. Tuy nhiên, tiền là có thật. DeepSeek đã chứng minh một cách mạnh mẽ rằng chỉ có tiền không thể giúp một công ty dẫn địa vị trong lĩnh vực này. Tác động lâu dài có thể định hình lại ngành công nghiệp AI như chúng ta đã biết.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan