DeepSeek thống trị App Store, một tuần AI Trung Quốc gây chấn động làng công nghệ Mỹ

Bài viết này được dịch máy
Xem bản gốc
Mô hình DeepSeek đã gây chấn động Thung lũng Silicon và hàm lượng vàng của nó vẫn đang tăng.

Tác giả: APPSO

Trong tuần qua, mẫu DeepSeek R1 đến từ Trung Quốc đã khuấy động toàn bộ giới AI ở nước ngoài.

Một mặt, nó đạt được hiệu suất tương đương với OpenAI o1 với chi phí đào tạo thấp hơn, thể hiện lợi thế của Trung Quốc về năng lực kỹ thuật và đổi mới quy mô; mặt khác, nó cũng đề cao tinh thần mã nguồn mở và mong muốn chia sẻ các chi tiết kỹ thuật.

Mới đây, đội ngũ nghiên cứu của Jiayi Pan, nghiên cứu sinh tiến sĩ tại Đại học California, Berkeley, đã tái tạo thành công công nghệ chủ chốt của DeepSeek R1-Zero - "Aha Moment" - với chi phí rất thấp (thấp hơn Mỹ). $30).

Vì vậy, không có gì ngạc nhiên khi Giám đốc điều hành Meta Zuckerberg, người đoạt giải Turing Yann LeCun và Giám đốc điều hành Deepmind Demis Hassabis đều đánh giá cao DeepSeek.

Khi mức độ phổ biến của DeepSeek R1 tiếp tục tăng cao thì chiều nay, các máy chủ của DeepSeek App đã tạm thời bận rộn do lượng truy cập của người dùng tăng đột biến, thậm chí còn "đóng băng" một thời gian.

Giám đốc điều hành OpenAI Sam Altman vừa cố gắng tiết lộ giới hạn sử dụng của o3-mini để gây chú ý trên các phương tiện truyền thông quốc tế - các thành viên ChatGPT Plus có thể truy vấn 100 lần một ngày.

Tuy nhiên, điều ít được biết đến là trước khi nổi tiếng, công ty mẹ Huanfang Quantitative của DeepSeek thực sự là một trong những công ty hàng đầu trong lĩnh vực quỹ đầu tư tư nhân định lượng trong nước.

Mô hình DeepSeek gây chấn động Thung lũng Silicon, hàm lượng vàng vẫn tăng

Vào ngày 26 tháng 12 năm 2024, DeepSeek chính thức phát hành mẫu lớn DeepSeek-V3.

Mô hình này đã hoạt động tốt trong nhiều bài kiểm tra điểm chuẩn, vượt qua các mô hình phổ thông hàng đầu trong ngành, đặc biệt trong các lĩnh vực như hỏi đáp kiến ​​thức, xử lý văn bản dài, tạo mã và khả năng toán học. Ví dụ: trong nhiệm vụ tri thức như MMLU và GPQA, hiệu suất của DeepSeek-V3 gần bằng với mẫu hàng đầu quốc tế Claude-3.5-Sonnet.

Về khả năng toán học, nó đã lập kỷ lục mới trong các thử nghiệm như AIME 2024 và CNMO 2024, vượt qua tất cả các mô hình mã nguồn mở và nguồn đóng đã biết. Đồng thời, tốc độ thế hệ của nó đã tăng 200% so với thế hệ trước, đạt 60 TPS, giúp cải thiện đáng kể trải nghiệm người dùng.

Theo phân tích của trang web đánh giá độc lập Artificial Analysis, DeepSeek-V3 vượt qua các mô hình mã nguồn mở khác ở nhiều chỉ báo chính và ngang bằng với các mô hình nguồn đóng hàng đầu thế giới GPT-4o và Claude-3.5-Sonnet về hiệu suất.

Những ưu điểm kỹ thuật cốt lõi của DeepSeek-V3 bao gồm:

  1. Kiến trúc Mixed Expert (MoE): DeepSeek-V3 có 671 tỷ tham số, nhưng trong hoạt động thực tế, chỉ có 37 tỷ tham số được kích hoạt cho mỗi đầu vào. Phương pháp kích hoạt có chọn lọc này giúp giảm đáng kể chi phí tính toán trong khi vẫn duy trì hiệu suất cao.

  2. Chú ý tiềm ẩn nhiều đầu (MLA): Kiến trúc này đã được chứng minh trong DeepSeek-V2 và có thể đạt được hiệu quả đào tạo và suy luận.

  3. Chiến lược cân bằng tải không có tổn thất phụ: Chiến lược này được thiết kế để giảm thiểu tác động tiêu cực của cân bằng tải đến hiệu suất mô hình.

  4. Mục tiêu đào tạo dự đoán nhiều mã thông báo: Chiến lược này cải thiện hiệu suất tổng thể của mô hình.

  5. Khung đào tạo hiệu quả: Sử dụng khung HAI-LLM, nó hỗ trợ Song song đường ống 16 chiều (PP), Song song chuyên gia 64 chiều (EP) và Song song dữ liệu ZeRO-1 (DP) và giảm chi phí đào tạo thông qua nhiều phương pháp tối ưu hóa khác nhau .

Quan trọng hơn, chi phí đào tạo của DeepSeek-V3 chỉ là 5,58 triệu USD, thấp hơn nhiều so với GPT-4 có chi phí đào tạo là 78 ​​triệu USD. Hơn nữa, giá dịch vụ API của nó cũng tiếp tục thân thiện với người dân trong thời gian qua.

Mã thông báo đầu vào chỉ có giá 0,5 nhân dân tệ (lỗi bộ nhớ đệm) hoặc 2 nhân dân tệ (lỗi bộ nhớ đệm) mỗi triệu và mã thông báo đầu ra chỉ có giá 8 nhân dân tệ mỗi triệu.

Financial Times mô tả nó là "con ngựa đen gây chấn động cộng đồng công nghệ quốc tế" và cho rằng hiệu suất của nó có thể so sánh với các mô hình đối thủ của Mỹ như OpenAI được tài trợ tốt. Người sáng lập giàu kinh nghiệm Chris McKay còn chỉ ra thêm rằng sự thành công của DeepSeek-V3 có thể xác định lại phương pháp phát triển mô hình AI đã được thiết lập.

Nói cách khác, sự thành công của DeepSeek-V3 còn được coi là phản ứng trực tiếp trước các hạn chế xuất khẩu của Hoa Kỳ tỷ lệ băm. Áp lực bên ngoài này đã kích thích sự đổi mới của Trung Quốc.

Người sáng lập DeepSeek Liang Wenfeng, một thiên tài khiêm tốn tại Đại học Chiết Giang

Sự trỗi dậy của DeepSeek đã khiến Thung lũng Silicon mất ngủ, Liang Wenfeng, người sáng lập mô hình đã khuấy động ngành công nghiệp AI toàn cầu này, giải thích một cách hoàn hảo về quỹ đạo phát triển của các thiên tài theo nghĩa truyền thống của Trung Quốc - thành công trẻ, thành công lâu dài.

Một lãnh đạo công ty AI giỏi cần hiểu cả công nghệ và kinh doanh, vừa có tầm nhìn xa trông rộng vừa thực dụng, có can đảm đổi mới và có kỷ luật kỹ thuật. Bản thân loại tài năng tổng hợp này là một nguồn tài nguyên khan hiếm.

Năm 17 tuổi, anh được nhận vào Đại học Chiết Giang chuyên ngành kỹ thuật thông tin và điện tử. Ở tuổi 30, anh thành lập Hquant và bắt đầu lãnh đạo đội ngũ khám phá giao dịch định lượng hoàn toàn tự động. Câu chuyện của Liang Wenfeng chứng minh rằng thiên tài luôn làm điều đúng đắn vào đúng thời điểm.

  • 2010: Với việc ra mắt hợp đồng tương lai chỉ số chứng khoán CSI 300, đầu tư định lượng đã mở ra các cơ hội phát triển. Đội ngũ Huanfang đã tận dụng được động lực và các quỹ tự vận hành của họ tăng trưởng nhanh chóng.

  • 2015: Liang Wenfeng đồng sáng lập Magic Square Quantative cùng với các cựu sinh viên của mình. Lần, anh ra mắt mô hình AI đầu tiên và ra mắt vị thế giao dịch được tạo ra bằng phương pháp học độ sâu .

  • 2017: Huanfang Quantitative tuyên bố hiện thực hóa chiến lược đầu tư toàn diện dựa trên AI.

  • 2018: Xác định AI là hướng phát triển chính của công ty.

  • 2019: Quy mô quản lý quỹ vượt 10 tỷ nhân dân tệ, trở thành một trong “tứ đại gia” về quỹ đầu tư tư nhân định lượng trong nước.

  • 2021: Huanfang Quantitative trở thành công ty cổ quỹ đầu tư tư nhân nhân định lượng trong nước đầu tiên có quy mô vượt quá 100 tỷ đồng.

Bạn không thể chỉ thành công và nghĩ đến công ty đã phải ngồi ngoài lề trong vài năm qua. Tuy nhiên, giống như việc chuyển đổi các công ty thương mại định lượng sang AI, điều này có vẻ bất ngờ nhưng thực ra lại hợp lý - bởi vì chúng đều là những ngành sử dụng nhiều công nghệ dựa trên dữ liệu.

Huang Renxun chỉ muốn bán card đồ họa game để kiếm tiền cho những người chơi game kém như chúng ta, nhưng không ngờ anh ấy lại trở thành kho vũ khí AI lớn nhất thế giới, tương tự như việc Huanfang bước chân vào lĩnh vực AI. Kiểu tiến hóa này khả thi hơn các mô hình AI quy mô lớn mà nhiều ngành công nghiệp hiện đang áp dụng một cách máy móc.

Magic Square Quantitative đã tích lũy được lượng lớn kinh nghiệm về xử lý dữ liệu và tối ưu hóa thuật toán trong quá trình đầu tư định lượng. Nó cũng có lượng lớn chip A100, cung cấp hỗ trợ phần cứng mạnh mẽ cho việc đào tạo mô hình AI. Kể từ năm 2017, Magic Square đã triển khai tỷ lệ băm AI trên quy mô lớn và xây dựng các cụm điện toán hiệu suất cao như "Yinghuo 1" và "Yinghuo 2" để cung cấp hỗ trợ tỷ lệ băm mạnh mẽ cho việc đào tạo mô hình AI.

Năm 2023, Magic Square Quantification chính thức thành lập DeepSeek để tập trung phát triển các mô hình AI lớn. DeepSeek kế thừa sự tích lũy công nghệ, tài năng và tài nguyên của Magic Quantative và nhanh chóng nổi lên trong lĩnh vực AI.

Trong một cuộc phỏng vấn độ sâu với "Undercurrent", người sáng lập DeepSeek Liang Wenfeng cũng cho thấy một tầm nhìn chiến lược độc đáo.

Không giống như hầu hết các công ty Trung Quốc chọn sao chép kiến ​​trúc Llama, DeepSeek bắt đầu trực tiếp từ cấu trúc mô hình, chỉ để hướng tới mục tiêu đầy tham vọng là AGI.

Liang Wenfeng không giấu giếm khoảng cách hiện tại. Hiện có một khoảng cách đáng kể giữa AI của Trung Quốc và các cấp độ quốc tế hàng đầu. Khoảng cách toàn diện về cấu trúc mô hình, động lực đào tạo và hiệu quả dữ liệu đòi hỏi tỷ lệ băm gấp 4 lần để đạt được hiệu quả tương tự.

▲ Ảnh từ ảnh chụp màn hình Tin tức CCTV

Thái độ đối mặt trực tiếp với thử thách này bắt nguồn từ kinh nghiệm nhiều năm của Liang Wenfeng ở Huanfang.

Ông nhấn mạnh rằng mã nguồn mở không chỉ là chia sẻ công nghệ mà còn là sự thể hiện văn hóa thực sự hệ thống bảo vệ ở khả năng đổi mới liên tục của đội ngũ. Văn hóa tổ chức độc đáo của DeepSeek khuyến khích sự đổi mới từ dưới lên, hạ thấp thứ bậc và coi trọng niềm đam mê cũng như sự sáng tạo của nhân tài.

Đội ngũ chủ yếu bao gồm những người trẻ đến từ các trường đại học hàng đầu và áp dụng mô hình phân công lao động tự nhiên để cho phép nhân viên khám phá và cộng tác độc lập. Khi tuyển dụng, chúng tôi coi trọng niềm đam mê và sự tò mò của nhân viên hơn là kinh nghiệm và bối cảnh theo nghĩa truyền thống.

Về triển vọng của ngành, Liang Wenfeng cho rằng AI đang trong thời kỳ bùng nổ đổi mới công nghệ hơn là thời kỳ bùng nổ ứng dụng. Ông nhấn mạnh rằng Trung Quốc cần nhiều đổi mới công nghệ nguyên bản hơn và không thể mãi ở trong giai đoạn bắt chước. Nước này cần con người đứng đầu về công nghệ.

Mặc dù các công ty như OpenAI hiện đang dẫn địa vị nhưng cơ hội đổi mới vẫn tồn tại.

Lật đổ Thung lũng Silicon, Deepseek khiến giới AI nước ngoài đứng ngồi không yên

Mặc dù ngành có nhiều ý kiến ​​​​khác nhau về DeepSeek, nhưng chúng tôi cũng đã thu thập một số nhận xét từ những người trong ngành.

Jim Fan, trưởng dự án NVIDIA GEAR Lab, đánh giá cao DeepSeek-R1.

Ông chỉ ra rằng điều này thể hiện rằng các công ty không phải của Hoa Kỳ đang hoàn thành sứ mệnh mở ban đầu của OpenAI và đạt được tầm ảnh hưởng bằng cách tiết lộ các thuật toán gốc và lộ trình học tập. Nhân tiện, nó cũng chứa đựng một làn sóng OpenAI.

DeepSeek-R1 không chỉ mã nguồn mở loạt mô hình mà còn tiết lộ mọi bí mật đào tạo. Chúng có thể là những dự án mã nguồn mở đầu tiên chứng minh tăng trưởng đáng kể và liên tục của bánh đà RL.

Có thể đạt được tầm ảnh hưởng thông qua các dự án huyền thoại như "Triển khai nội bộ ASI" hoặc "Dự án dâu tây", hoặc đơn giản bằng cách trình bày thuật toán ban đầu và đường cong học tập matplotlib.

Marc Andreesen, người sáng lập A16Z, một công ty đầu tư mạo hiểm hàng đầu ở Phố Wall, cho rằng DeepSeek R1 là một trong những bước đột phá đáng ngạc nhiên và ấn tượng nhất mà ông từng thấy. Là mã nguồn mở, nó là một món quà có tầm ảnh hưởng sâu rộng đến thế giới.

Lu Jing, cựu nhà nghiên cứu cấp cao tại Tencent và là nghiên cứu sinh sau tiến sĩ về trí tuệ nhân tạo tại Đại học Bắc Kinh, đã phân tích nó từ góc độ tích lũy công nghệ. Ông chỉ ra rằng DeepSeek không đột nhiên trở nên phổ biến. Nó kế thừa nhiều cải tiến trong phiên bản mô hình thế hệ trước. Kiến trúc mô hình và sự đổi mới thuật toán có liên quan đã được xác minh nhiều lần và việc làm rung chuyển ngành là điều không thể tránh khỏi.

Yann LeCun, người đoạt giải Turing và là nhà khoa học AI trưởng của Meta, đưa ra một quan điểm mới:

“Đối với những người nghĩ rằng “Trung Quốc đang vượt qua Hoa Kỳ về AI” sau khi xem hiệu suất của DeepSeek, thì cách giải thích của bạn là sai. Giải thích đúng phải là "Mô hình mã nguồn mở đang vượt qua mô hình độc quyền." "

Bình luận của CEO Deepmind Demis Hassabis bộc lộ một chút lo lắng:

“Những gì mà DeepSeek đã đạt được là rất ấn tượng và tôi cho rằng chúng ta cần suy nghĩ về cách duy trì địa vị của các mô hình biên giới phương Tây. Tôi cho rằng phương Tây vẫn đi trước, nhưng chắc chắn Trung Quốc có khả năng mở rộng và kỹ thuật cực kỳ mạnh mẽ. "

Giám đốc điều hành Microsoft Satya Nadella cho biết tại Diễn đàn kinh tế thế giới ở Davos, Thụy Sĩ, rằng DeepSeek đã phát triển một cách hiệu quả một mô hình mã nguồn mở không chỉ hoạt động tốt trong tính toán suy luận mà còn cực kỳ hiệu quả trong siêu máy tính.

Ông nhấn mạnh rằng Microsoft phải đáp ứng những phát triển mang tính đột phá này ở Trung Quốc với mức độ ưu tiên cao nhất.

Đánh giá của CEO Meta Zuckerberg sâu sắc hơn. Ông cho rằng sức mạnh kỹ thuật và hiệu suất mà DeepSeek thể hiện là rất ấn tượng, đồng thời chỉ ra rằng khoảng cách AI giữa Trung Quốc và Hoa Kỳ đã là rất nhỏ và sự chạy nước rút hoàn toàn của Trung Quốc đã tạo nên điều đó. sự cạnh tranh khốc liệt hơn.

Phản ứng từ các đối thủ cạnh tranh có lẽ là sự chứng thực tốt nhất cho DeepSeek. Theo báo cáo từ nhân viên Meta trên cộng đồng nơi làm việc nặc danh TeamBlind, sự xuất hiện của DeepSeek-V3 và R1 đã khiến đội ngũ AI sáng tạo của Meta rơi vào tình trạng hoảng loạn.

Các kỹ sư của Meta đang chạy đua với thời gian để phân tích công nghệ của DeepSeek và cố gắng sao chép mọi công nghệ có thể có từ nó.

Nguyên nhân là do chi phí đào tạo DeepSeek-V3 chỉ là 5,58 triệu USD, thậm chí còn không bằng mức lương hàng năm của một số giám đốc điều hành Meta. Sự chênh lệch về tỷ lệ đầu vào-đầu ra như vậy khiến ban quản lý Meta chịu áp lực rất lớn khi giải thích ngân sách R&D AI khổng lồ của mình.

Các phương tiện truyền thông chính thống quốc tế cũng rất chú ý đến sự nổi lên của DeepSeek.

Financial Times chỉ ra rằng sự thành công của DeepSeek Sự lật đổ quan niệm truyền thống rằng “nghiên cứu và phát triển AI phải dựa vào những khoản đầu tư khổng lồ” và chứng minh rằng các lộ trình kỹ thuật chính xác cũng có thể đạt được kết quả nghiên cứu xuất sắc. Quan trọng hơn, sự chia sẻ quên mình về đổi mới công nghệ của đội ngũ DeepSeek đã khiến công ty chú trọng nhiều hơn đến giá trị nghiên cứu này trở thành một đối thủ cạnh tranh đặc biệt mạnh mẽ.

The Economist tuyên bố cho rằng những đột phá nhanh chóng của Trung Quốc về hiệu quả chi phí của công nghệ AI đã bắt đầu làm lung lay lợi thế công nghệ của Hoa Kỳ, điều này có thể ảnh hưởng đến việc cải thiện năng suất và tiềm năng tăng trưởng kinh tế của Hoa Kỳ trong thập kỷ tới.

New York Times đánh giá từ một góc độ khác. DeepSeek-V3 có hiệu suất tương đương với các chatbot cao cấp của các công ty Mỹ, nhưng chi phí lại giảm đáng kể.

Điều này cho thấy ngay cả khi đối mặt với các biện pháp kiểm soát xuất khẩu chip, các công ty Trung Quốc vẫn có thể cạnh tranh thông qua đổi mới và sử dụng hiệu quả các nguồn tài nguyên. Hơn nữa, chính sách hạn chế chip của chính phủ Mỹ có thể phản tác dụng, thay vào đó lại thúc đẩy những đột phá đổi mới của Trung Quốc trong lĩnh vực công nghệ AI mã nguồn mở.

DeepSeek "báo nhầm cửa", tự xưng là GPT-4

Giữa những lời khen ngợi, DeepSeek cũng vấp phải một số tranh cãi.

Nhiều người ngoài cuộc cho rằng DeepSeek có thể đã sử dụng dữ liệu đầu ra của các mô hình như ChatGPT làm tài liệu đào tạo trong quá trình đào tạo. Thông qua công nghệ chắt lọc mô hình, “kiến thức” trong dữ liệu này sẽ được chuyển sang mô hình của chính DeepSeek.

Cách làm này không phải hiếm trong lĩnh vực AI, nhưng những người hoài nghi lo ngại liệu DeepSeek có sử dụng dữ liệu đầu ra của mô hình OpenAI mà không tiết lộ đầy đủ hay không. Điều này dường như được phản ánh trong khả năng tự nhận thức của DeepSeek-V3.

Những người dùng trước đó đã phát hiện ra rằng khi được hỏi về danh tính của một mẫu máy, nó đã tự cho rằng nhầm là GPT-4.

Dữ liệu chất lượng tính đến luôn là yếu tố quan trọng trong sự phát triển của AI. Ngay cả OpenAI cũng không tránh khỏi những tranh cãi về việc thu thập dữ liệu dữ liệu trên quy mô lớn từ Internet cũng đã thu hút nhiều vụ kiện về bản quyền. New York Times đã đưa ra phán quyết sơ thẩm. Trước khi những chiếc ủng được tung ra thị trường, một trường hợp mới đã được thêm vào.

Vì vậy DeepSeek cũng nhận được ý kiến ​​công chúng từ Sam Altman và John Schulman.

"Thật (tương đối) dễ dàng để sao chép một cái gì đó mà bạn biết sẽ hiệu quả. Rất khó để làm một cái gì đó mới, rủi ro và khó khăn khi bạn không biết liệu nó có hiệu quả hay không."

Tuy nhiên, đội ngũ DeepSeek đã nói rõ trong báo cáo kỹ thuật R1 rằng họ không sử dụng dữ liệu đầu ra của mô hình OpenAI và tuyên bố rằng hiệu suất cao đạt được thông qua học tăng cường và chiến lược đào tạo độc đáo.

Ví dụ: phương pháp đào tạo nhiều giai đoạn được áp dụng, bao gồm đào tạo mô hình cơ bản, đào tạo học tăng cường (RL), tinh chỉnh, v.v. Phương pháp đào tạo theo chu kỳ nhiều giai đoạn này giúp mô hình tiếp thu các kiến ​​thức và khả năng khác nhau ở các giai đoạn khác nhau.

Tiết kiệm tiền cũng là một công việc kỹ thuật và công nghệ đằng sau DeepSeek là giải pháp tốt nhất

Báo cáo kỹ thuật DeepSeek-R1 đã đề cập đến một phát hiện đáng chú ý, đó là “khoảnh khắc aha” xảy ra trong quá trình huấn luyện R1 zero. Trong giai đoạn đào tạo giữa mô hình, DeepSeek-R1-Zero bắt đầu tích cực đánh giá lại các ý tưởng giải quyết vấn đề ban đầu và phân bổ nhiều thời gian hơn để tối ưu hóa chiến lược (chẳng hạn như thử các giải pháp khác nhau lần).

Nói cách khác, thông qua khung RL, AI có thể tự phát triển khả năng suy luận giống con người và thậm chí vượt qua giới hạn của các quy tắc đặt trước. Và điều này hy vọng cũng sẽ cung cấp hướng phát triển các mô hình AI tự chủ và thích ứng hơn, chẳng hạn như các chiến lược điều chỉnh linh hoạt trong việc ra quyết định phức tạp (chẩn đoán y tế, thiết kế thuật toán).

Đồng thời, nhiều người trong ngành đang cố gắng phân tích sâu báo cáo kỹ thuật của DeepSeek. Andrej Karpathy, cựu đồng sáng lập OpenAI, cho biết sau khi phát hành DeepSeek V3:

DeepSeek (công ty AI của Trung Quốc) hôm nay cảm thấy thoải mái. Họ đã công khai phát hành một mô hình ngôn ngữ tiên tiến (LLM) và hoàn thành khóa đào tạo với ngân sách cực thấp (2048 GPU, kéo dài 2 tháng, trị giá 6 triệu USD).

Để tham khảo, khả năng này thường yêu cầu một cụm GPU 16K để hỗ trợ và hầu hết các hệ thống tiên tiến hiện nay đều sử dụng khoảng 100K GPU. Ví dụ: Llama 3 (thông số 405B) đã sử dụng 30,8 triệu giờ GPU, trong khi DeepSeek-V3 dường như là mô hình mạnh hơn, chỉ sử dụng 2,8 triệu giờ GPU (khoảng 1/11 so với tính toán của Llama 3).

Nếu mô hình này cũng hoạt động tốt trong thử nghiệm trong thế giới thực (ví dụ: bảng xếp hạng LLM Arena đang diễn ra và thử nghiệm nhanh của tôi hoạt động tốt), thì đây sẽ là một ví dụ rất hay về cách có thể thể hiện khả năng nghiên cứu và kỹ thuật trong điều kiện hạn chế về nguồn lực. Kết quả ấn tượng.

Vì vậy, điều này có nghĩa là chúng ta không còn cần các cụm GPU lớn để đào tạo LLM tiên tiến nữa? Không hẳn, nhưng nó cho thấy bạn phải đảm bảo rằng tài nguyên bạn sử dụng không bị lãng phí, và trường hợp này cho thấy việc tối ưu hóa dữ liệu và thuật toán vẫn có thể dẫn đến tiến bộ vượt bậc. Ngoài ra, báo cáo kỹ thuật cũng rất thú vị, chi tiết và đáng đọc.

Đối diện tranh cãi về việc sử dụng dữ liệu ChatGPT của DeepSeek V3, Karpathy cho rằng các mô hình ngôn ngữ lớn về cơ bản không có khả năng tự nhận thức giống con người. Liệu mô hình có thể trả lời chính xác danh tính của chính nó hay không phụ thuộc hoàn toàn vào việc đội ngũ phát triển có đặc biệt xây dựng khả năng tự nhận thức hay không. nhận thức. Tập huấn luyện, nếu không được huấn luyện đặc biệt, mô hình sẽ trả lời dựa trên thông tin gần nhất trong dữ liệu huấn luyện.

Ngoài ra, việc mô hình tự nhận mình là ChatGPT không phải là vấn đề khi xét đến tính phổ biến của dữ liệu liên quan đến ChatGPT trên Internet, câu trả lời này thực sự phản ánh một hiện tượng tự nhiên về "sự xuất hiện kiến ​​​​thức gần đó".

Jim Fan đã chỉ ra sau khi đọc báo cáo kỹ thuật của DeepSeek-R1:

Quan điểm quan trọng nhất của bài viết này là nó hoàn toàn được thúc đẩy bởi học tập tăng cường, không có bất kỳ sự tham gia nào của học tập có giám sát (SFT). Phương pháp này tương tự như AlphaZero - thành thạo cờ vây và Shogi từ đầu thông qua "Cold Start" và cờ vua mà không bắt chước. cách chơi cờ của con người.

– Sử dụng các phần thưởng thực được tính toán dựa trên các quy tắc được mã hóa cứng, thay vì các mô hình phần thưởng đã học được có thể dễ dàng bị “hack” bằng cách học tăng cường.

– Thời gian suy nghĩ của mô hình tăng dần theo tiến trình đào tạo. Đây không phải là tính năng được lập trình sẵn mà là tính năng tự phát.

– Xuất hiện hành vi tự phản ánh và khám phá.

– Sử dụng GRPO thay vì PPO: GRPO loại bỏ mạng bình luận viên trong PPO và thay vào đó sử dụng phần thưởng trung bình của nhiều mẫu. Đây là một phương pháp đơn giản để giảm mức sử dụng bộ nhớ. Điều đáng chú ý là GRPO được đội ngũ DeepSeek phát minh vào tháng 2 năm 2024, đây thực sự là một đội ngũ rất hùng mạnh.

Khi Kimi cũng công bố kết quả nghiên cứu tương tự trong cùng ngày, Jim Fan nhận thấy kết quả nghiên cứu của hai công ty đều đạt được mục tiêu giống nhau:

  • Tất cả họ đều từ bỏ phương pháp tìm kiếm cây phức tạp như MCTS và chuyển sang quỹ đạo tư duy tuyến tính đơn giản hơn, sử dụng các phương pháp dự đoán tự hồi quy truyền thống.

  • Tất cả đều tránh sử dụng các hàm giá trị yêu cầu bản sao mô hình bổ sung, giảm yêu cầu về tài nguyên máy tính và nâng cao hiệu quả đào tạo.

  • Tất cả họ đều từ bỏ mô hình khen thưởng chuyên sâu và dựa vào kết quả thực tế làm hướng dẫn càng nhiều càng tốt để đảm bảo sự ổn định của quá trình đào tạo.

Nhưng cũng có những khác biệt đáng kể giữa hai điều này:

  • DeepSeek áp dụng phương pháp khởi động nguội RL thuần túy kiểu AlphaZero, Kimi k1.5 chọn chiến lược làm nóng trước kiểu AlphaGo-Master và sử dụng SFT nhẹ

  • DeepSeek mã nguồn mở theo giấy phép MIT và Kimi hoạt động tốt trong các bài kiểm tra điểm chuẩn đa phương thức. Chi tiết thiết kế hệ thống trên giấy phong phú hơn, bao gồm cơ sở hạ tầng RL, cụm kết hợp, hộp cát mã và chiến lược song song.

Tuy nhiên, trong thị trường AI có tốc độ phát triển nhanh chóng này, vị trí dẫn đầu thường chỉ là thoáng qua. Các công ty lập mô hình khác sẽ nhanh chóng học hỏi kinh nghiệm của DeepSeek và cải thiện nó và có thể sớm bắt kịp.

Người khởi xướng cuộc chiến giá mô hình lớn

Nhiều người biết rằng DeepSeek có tựa đề là "AI Pinduoduo", nhưng họ không biết rằng ý nghĩa đằng sau nó thực chất bắt nguồn từ cuộc chiến giá cả mẫu máy lớn bắt đầu vào năm ngoái.

Vào ngày 6 tháng 5 năm 2024, DeepSeek đã phát hành mô hình MoE mã nguồn mở DeepSeek-V2, mô hình này đã đạt được những bước đột phá kép về hiệu suất và chi phí thông qua các kiến ​​trúc đổi mới như MLA (cơ chế chú ý tiềm ẩn nhiều đầu) và MoE (mô hình chuyên gia hỗn hợp).

Chi phí suy luận đã giảm xuống chỉ còn 1 nhân dân tệ trên một triệu token, xấp xỉ 1/7 so với Llama3 70B và 1/70 so với GPT-4 Turbo vào thời điểm đó. Bước đột phá công nghệ này cho phép DeepSeek cung cấp các dịch vụ cực kỳ tiết kiệm chi phí mà không tính phí, đồng thời cũng mang lại áp lực cạnh tranh rất lớn cho các nhà sản xuất khác.

Việc phát hành DeepSeek-V2 đã gây ra phản ứng dây chuyền ByteDance, Baidu, Alibaba, Tencent và Zhipu AI đều làm theo và giảm đáng kể giá các sản phẩm mẫu lớn của họ. Tác động của cuộc chiến giá cả này thậm chí còn lan rộng ra Thái Bình Dương, gây ra mối lo ngại lớn ở Thung lũng Silicon.

Do đó, DeepSeek được mệnh danh là “Pinduoduo của AI”.

Đối diện những nghi ngờ từ thế giới bên ngoài, người sáng lập DeepSeek Liang Wenfeng đã trả lời trong một cuộc phỏng vấn với Undercurrent:

"Thu hút người dùng không phải là mục đích chính của chúng tôi. Một mặt, chúng tôi hạ giá vì đang khám phá cấu trúc của mẫu xe thế hệ tiếp theo và giá thành đã giảm trước; mặt khác, chúng tôi cũng cảm thấy rằng cả API và AI phải mang tính toàn diện. Thứ mà mọi người đều có thể mua được.”

Trên thực tế, tầm quan trọng của cuộc chiến về giá này vượt xa chính sự cạnh tranh. Rào cản gia nhập thấp hơn cho phép nhiều công ty và nhà phát triển tiếp cận và áp dụng AI tiên tiến hơn, đồng thời nó cũng sụp đổ toàn bộ ngành phải suy nghĩ lại về chiến lược định giá trong giai đoạn này. Điều đó, DeepSeek bắt đầu lọt vào mắt công chúng và trở nên nổi tiếng.

Chi hàng nghìn USD mua xương ngựa, Lei Jun săn trộm nữ thiên tài AI

Cách đây vài tuần, DeepSeek cũng đã thực hiện một đợt thay đổi nhân sự cấp cao.

Theo China Business News, Lei Jun đã chiêu mộ thành công Luo Fuli với mức lương hàng chục triệu mỗi năm và giao cho cô nhiệm vụ quan trọng là trưởng đội ngũ mô hình lớn của Xiaomi AI Lab.

Luo Fuli gia nhập DeepSeek, một công ty con của Magic Square Quantitative, vào năm 2022. Có thể thấy cô ấy trong báo cáo quan trọng như DeepSeek-V2 và R1 mới nhất.

Sau đó, DeepSeek, vốn từng tập trung vào phía B, cũng bắt đầu bố trí phía C và ra mắt các ứng dụng di động. Tính đến thời điểm viết bài, ứng dụng di động của DeepSeek đứng thứ hai trong phiên bản miễn phí của App Store của Apple, cho thấy khả năng cạnh tranh mạnh mẽ.

Hàng loạt cao trào nhỏ đã khiến DeepSeek nổi tiếng nhưng đồng thời cũng có những cao trào cao hơn. Tối 20/1, mẫu siêu lớn DeepSeek R1 với thông số 660B đã chính thức ra mắt.

Mô hình này thực hiện tốt nhiệm vụ toán học. Ví dụ: nó đạt được điểm pass@1 là 79,8% trên AIME 2024, vượt xa OpenAI-o1 một chút; nó đạt điểm cao tới 97,3% trên MATH-500, tương đương với OpenAI-o1. .

Ví dụ: về mặt nhiệm vụ lập trình, nó đã đạt được xếp hạng Elo 2029 trên Codeforces, vượt qua 96,3% người tham gia là con người. Trong các tiêu chuẩn kiến ​​thức như MMLU, MMLU-Pro và GPQA Diamond, DeepSeek R1 đạt lần lượt 90,8%, 84,0% và 71,5%, tuy thấp hơn một chút so với OpenAI-o1 nhưng lại tốt hơn so với các mẫu mã nguồn đóng khác.

Trong danh sách tổng hợp mới nhất của đấu trường mô hình lớn LM Arena, DeepSeek R1 đứng thứ 3, đồng hạng với o1.

  • Trong các lĩnh vực “Lời nhắc khó” (từ gợi ý khó), “Coding” (khả năng viết mã) và “Toán học” (khả năng toán học), DeepSeek R1 đứng đầu.

  • Về mặt "Kiểm soát phong cách", DeepSeek R1 và o1 đồng hạng nhất.

  • Trong bài kiểm tra "Hard Nhắc với Style Control", DeepSeek R1 cũng đứng ở vị trí đầu tiên với o1.

Về chiến lược mã nguồn mở, R1 áp dụng Giấy phép MIT, mang đến cho người dùng quyền tự do sử dụng tối đa, hỗ trợ chắt lọc mô hình, có thể chắt lọc khả năng suy luận thành các mô hình nhỏ hơn, chẳng hạn như mô hình 32B và 70B, đã đạt chuẩn o1-mini ở nhiều khả năng Hiệu ứng của mã nguồn mã nguồn mở thậm chí còn vượt qua cả Meta vốn từng bị chỉ trích trước đó.

Sự xuất hiện của DeepSeek R1 cho phép người dùng trong nước lần đầu tiên sử dụng miễn phí các mô hình cấp o1, phá bỏ rào cản thông tin lâu nay. Sự bùng nổ của cuộc thảo luận mà nó gây ra trên các nền tảng xã hội như Xiaohongshu có thể so sánh với GPT-4 tại thời điểm phát hành.

Đi ra biển và tham gia

Nhìn lại quỹ đạo phát triển của DeepSeek, có thể thấy rõ mã thành công của nó. Sức mạnh là nền tảng, nhưng nhận diện thương hiệu mới là hệ thống bảo vệ.

Trong cuộc trò chuyện với "Sau này", Giám đốc điều hành MiniMax Yan Junjie đã chia sẻ sâu sắc những suy nghĩ của mình về ngành AI và những thay đổi chiến lược của công ty. Ông nhấn mạnh hai bước ngoặt quan trọng: thứ nhất, thừa nhận tầm quan trọng của việc xây dựng thương hiệu công nghệ và thứ hai, hiểu được giá trị của chiến lược mã nguồn mở.

Yan Junjie cho rằng trong lĩnh vực AI, tốc độ phát triển công nghệ quan trọng hơn những thành tựu hiện tại và mã nguồn mở có thể đẩy nhanh quá trình này thông qua phản hồi của cộng đồng. Thứ hai, một thương hiệu công nghệ mạnh là yếu tố quan trọng để thu hút nhân tài và thu hút nguồn lực.

Lấy OpenAI làm ví dụ. Mặc dù nó gặp phải tình trạng hỗn loạn về quản lý trong giai đoạn sau, nhưng hình ảnh đổi mới và tinh thần mã nguồn mở được thiết lập từ rất sớm đã tích lũy được làn sóng ấn tượng đầu tiên tốt đẹp cho nó. Mặc dù Claude đã trở nên ngang bằng về mặt kỹ thuật trong tương lai và dần dần ăn thịt người dùng bên B của OpenAI, OpenAI vẫn dẫn đầu về số người dùng bên C do sự phụ thuộc vào đường dẫn của người dùng.

Trong lĩnh vực AI, giai đoạn cạnh tranh thực sự luôn mang tính toàn cầu. Ra nước ngoài, tham gia và quảng bá cũng là một cách hay.

Làn sóng mở rộng ra nước ngoài này đã gây ra những làn sóng trong ngành. Qwen, Wall-facing Smart và gần đây là DeepSeek R1, kimi v1.5 và Doubao v1.5 Pro đã gây xôn xao ở nước ngoài.

Mặc dù năm 2025 được coi là năm đầu tiên của cơ thể thông minh và năm đầu tiên của kính AI, nhưng năm nay cũng sẽ là năm quan trọng đầu tiên để các công ty AI Trung Quốc nắm bắt thị trường toàn cầu và việc vươn ra toàn cầu sẽ trở thành một từ khóa không thể tránh khỏi.

Hơn nữa, chiến lược mã nguồn mở cũng là một động thái tốt, thu hút lượng lớn blogger và nhà phát triển kỹ thuật tự phát trở thành “nước máy” của DeepSeek. Công nghệ tốt không nên chỉ là khẩu hiệu “AI cho tất cả” thành đúng. toàn diện về công nghệ, DeepSeek đã dấn thân vào một con đường thuần khiết hơn OpenAI.

Nếu OpenAI cho chúng ta thấy sức mạnh của AI thì DeepSeek khiến chúng ta tin rằng:

Sức mạnh này cuối cùng sẽ mang lại lợi ích cho tất cả mọi người.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
5
Thêm vào Yêu thích
2
Bình luận
Followin logo