Tác giả: Sam Gao, Tác giả của ElizaOS
0. Lời nói đầu
Gần đây, sự xuất hiện liên tiếp của DeepSeek V3, R1 đã khiến các nhà nghiên cứu AI, nhà khởi nghiệp và nhà đầu tư ở Mỹ bắt đầu Hội chứng sợ bỏ lỡ (FOMO). Sự kiện này thậm chí có thể gây ngạc nhiên như sự ra mắt của ChatGPT vào cuối năm 2022.

Nhờ vào việc DeepSeek R1 hoàn toàn mã nguồn mở (mô hình có thể được tải miễn phí trên HuggingFace để thực hiện suy luận tại chỗ) và giá cả cực kỳ thấp (chỉ bằng 1/100 so với OpenAI o1), DeepSeek đã lên ngôi vương trên App Store của Mỹ trong vòng 5 ngày.

Vậy, lực lượng AI mới bí ẩn này, được ươm tạo bởi một công ty định lượng Trung Quốc, đến từ đâu?
1. Nguồn gốc của DeepSeek
Tôi lần đầu tiên nghe về DeepSeek vào năm 2021, khi đó, trong khi làm việc tại Viện Đạo Đức, cô gái thiên tài bên cạnh, Luo Fuli, một thạc sĩ của Đại học Bắc Kinh đã đăng 8 bài báo tại ACL (hội nghị hàng đầu về xử lý ngôn ngữ tự nhiên) trong một năm, đã nghỉ việc và gia nhập Hightflyer Quant. Lúc đó, mọi người đều rất tò mò, một công ty định lượng kiếm rất nhiều tiền, tại sao lại tuyển dụng nhân tài trong lĩnh vực AI: Phải chăng Hightflyer cũng cần viết bài báo?

Theo hiểu biết của tôi, các nhà nghiên cứu AI được Hightflyer tuyển dụng chủ yếu là tự mình làm việc, tìm kiếm một số hướng tiên phong để khám phá, trong đó hướng cốt lõi nhất là các mô hình quy mô lớn (LLM) và các mô hình tạo hình ảnh từ văn bản (lúc đó là OpenAI Dall-e).
Thời gian trôi nhanh đến cuối năm 2022, Hightflyer dần thu hút ngày càng nhiều nhân tài hàng đầu trong lĩnh vực AI (phần lớn là sinh viên đang theo học tại Thanh Hoa và Bắc Kinh). Được kích thích bởi ChatGPT, Lương Văn Phong, Giám đốc điều hành của Hightflyer, đã quyết định tiến vào lĩnh vực trí tuệ nhân tạo tổng quát: "Chúng tôi đã thành lập một công ty mới, bắt đầu từ các mô hình ngôn ngữ quy mô lớn, sau đó sẽ có cả lĩnh vực thị giác."
Đúng vậy, công ty này chính là DeepSeek, vào đầu năm 2023, các công ty đại diện cho "Lục Long" như Zhishpu, Yuezhi, Baichuan Zhihui và những công ty được "tiền nóng" thổi phồng dần chiếm lĩnh sân khấu, trong khu vực sôi động và nhộn nhịp của Trung Quan và Ngũ Đạo Khẩu, sự hiện diện của DeepSeek trong một lượng lớn đã bị những công ty này lấy đi "sự chú ý" (Attention).
Do đó, vào năm 2023, với tư cách là một tổ chức nghiên cứu thuần túy, không có những nhà sáng lập nổi tiếng như Li Kaifu của Zero One Wanwu, Yang Zhilin của Yuezhi, Wang Xiaochuan của Baichuan Zhihui, DeepSeek rất khó gọi vốn độc lập từ thị trường. Do đó, Hightflyer quyết định tách DeepSeek ra và tài trợ toàn bộ cho sự phát triển của DeepSeek. Trong thời đại đầy lửa và dầu này, không có công ty đầu tư mạo hiểm nào sẵn sàng cung cấp vốn cho DeepSeek, một là vì trong DeepSeek chủ yếu là những tiến sĩ vừa tốt nghiệp, không có những nhà nghiên cứu hàng đầu nổi tiếng, hai là do triển vọng thoái vốn còn xa vời.
Trong môi trường đầy tiếng ồn và hỗn loạn, DeepSeek bắt đầu viết nên những câu chuyện trong hành trình khám phá AI của mình:
Tháng 11 năm 2023, DeepSeek ra mắt DeepSeek LLM, với số lượng tham số lên đến 67 tỷ, hiệu suất gần với GPT-4.
Tháng 5 năm 2024, DeepSeek-V2 chính thức ra mắt.
Tháng 12 năm 2024, DeepSeek-V3 được phát hành, các bài kiểm tra chuẩn cho thấy nó vượt trội hơn Llama 3.1 và Qwen 2.5, đồng thời tương đương với GPT-4o và Claude 3.5 Sonnet, gây chấn động trong ngành.
Tháng 1 năm 2025, mô hình DeepSeek-R1 thế hệ đầu tiên có khả năng suy luận được phát hành, với giá chỉ bằng 1/100 so với OpenAI o1 nhưng có hiệu suất vượt trội, khiến cả thế giới công nghệ phải rùng mình: Thế giới thực sự nhận ra rằng, sức mạnh của Trung Quốc đã đến... Mã nguồn mở sẽ luôn thắng!
2. Chiến lược nhân tài
Tôi đã quen biết một số nhà nghiên cứu của DeepSeek từ rất sớm, chủ yếu là những người nghiên cứu hướng AIGC, như tác giả của Janus được phát hành vào tháng 11 năm 2024 và tác giả của DreamCraft3D, trong đó có một người đã giúp tôi tối ưu hóa bài báo mới nhất của tôi @xingchaoliu.

Theo những gì tôi tìm hiểu, những nhà nghiên cứu mà tôi quen biết đều rất trẻ, hầu hết là sinh viên đang theo học tiến sĩ hoặc mới tốt nghiệp trong vòng 3 năm.


Trong số họ, hầu hết là sinh viên đang theo học sau đại học hoặc tiến sĩ tại khu vực Bắc Kinh, có thành tích học thuật rất ấn tượng: Nhiều người đã công bố từ 3 đến 5 bài báo tại các hội nghị hàng đầu.
Tôi đã hỏi bạn bè của DeepSeek, tại sao Lương Văn Phong chỉ tuyển những người trẻ?
Họ đã chuyển cho tôi lời của Giám đốc điều hành Lương Văn Phong, nguyên văn như sau:
Bức màn bí ẩn của đội ngũ DeepSeek khiến mọi người tò mò: Vũ khí bí mật của họ là gì? Truyền thông quốc tế nói rằng, vũ khí bí mật này là "những thiên tài trẻ", họ đủ sức cạnh tranh với những ông lớn tài chính hùng mạnh của Mỹ.
Trong ngành công nghiệp AI, việc tuyển dụng những cựu chiến binh giàu kinh nghiệm là điều thông thường, nhiều công ty khởi nghiệp AI trong nước Trung Quốc thậm chí còn xu hướng tuyển dụng những nhà nghiên cứu giàu kinh nghiệm hoặc những người có bằng tiến sĩ ở nước ngoài. Tuy nhiên, DeepSeek lại đi ngược lại, ưu tiên những người trẻ không có kinh nghiệm làm việc.
Một nhà tuyển dụng từng hợp tác với DeepSeek tiết lộ, DeepSeek không tuyển những chuyên gia kỹ thuật lâu năm, "kinh nghiệm làm việc nhiều nhất cũng chỉ khoảng 3-5 năm, những người làm việc trên 8 năm thì cơ bản bị loại." Lương Văn Phong cũng cho biết trong một cuộc phỏng vấn với 36Kr vào tháng 5 năm 2023 rằng, đa số nhân viên phát triển của DeepSeek hoặc là sinh viên mới tốt nghiệp, hoặc là những người mới bắt đầu sự nghiệp trong lĩnh vực trí tuệ nhân tạo. Ông nhấn mạnh: "Hầu hết các vị trí kỹ thuật cốt lõi của chúng tôi đều do sinh viên mới tốt nghiệp hoặc những người có 1-2 năm kinh nghiệm làm việc đảm nhận."
Không có kinh nghiệm làm việc, DeepSeek lựa chọn người như thế nào? Câu trả lời là, nhìn vào tiềm năng.
Lương Văn Phong từng nói, để làm một việc dài hạn, kinh nghiệm thực tế không quan trọng lắm, mà năng lực cơ bản, tính sáng tạo và niềm đam mê lại quan trọng hơn. Ông tin rằng, có thể hiện tại những nhà tài năng AI hàng đầu thế giới vẫn chưa ở Trung Quốc, "nhưng chúng tôi có thể tự tạo ra những người như vậy."
Chiến lược này khiến tôi nhớ lại chiến lược ban đầu của OpenAI, khi OpenAI thành lập vào cuối năm 2015, ý tưởng cốt lõi của Sam Altman là tìm những nhà nghiên cứu trẻ có tham vọng, do đó, ngoài Chủ tịch Greg Brockman và Giám đốc Khoa học Ilya Sutskever, 4 thành viên kỹ thuật cốt lõi còn lại (Andrew Karpathy, Durk Kingma, John Schulman, Wojciech Zaremba) đều là những tiến sĩ vừa tốt nghiệp, tốt nghiệp từ Đại học Stanford, Đại học Amsterdam, Đại học California tại Berkeley và Đại học New York.

Từ trái sang phải: Ilya Sutskever (Giám đốc Khoa học cũ), Greg Brockman (Chủ tịch cũ), Andrej Karpathy (Giám đốc Kỹ thuật cũ), Durk
① Công nghệ hỗn hợp chuyên gia (MoE) mà nó sử dụng, yêu cầu cao về đào tạo và dữ liệu, điều này cho thấy rằng mọi người nghi ngờ Deepseek sử dụng dữ liệu của OpenAI để đào tạo là có lý do.
② Deepseek sử dụng kỹ thuật học tăng cường (RL) của học tăng cường, có yêu cầu phần cứng rất cao, nhưng so với Meta, cụm máy tính Volta của OpenAI, Deepseek chỉ sử dụng 2048 GPU H800 để đào tạo.
Do giới hạn về tính toán và độ phức tạp của MoE, điều này khiến DeepSeek R1 chỉ sử dụng 5 triệu đô la mà vẫn thành công ở một lần, trông hơi đáng ngờ, nhưng dù bạn có thái độ nào với "phép màu chi phí thấp" của R1, hay nghi ngờ "hình thức bên ngoài", bạn cũng không thể bỏ qua sự sáng tạo về chức năng của nó.
Đồng sáng lập BitMEX Arthur Hayes đã đăng bài viết: Sự trỗi dậy của DeepSeek có thể khiến các nhà đầu tư toàn cầu nghi ngờ chủ nghĩa siêu đẳng của Mỹ? Giá trị tài sản của Mỹ có bị đánh giá quá cao?
Giáo sư Đại học Stanford Andrew Ng đã công khai tại Diễn đàn Davos năm nay: "Tôi ấn tượng với sự tiến bộ của DeepSeek. Tôi tin rằng họ có thể đào tạo các mô hình một cách rất kinh tế. Mô hình suy luận mới nhất của họ rất ấn tượng... 'Cố lên'!"
Marc Andreessen, nhà sáng lập a16z, cho biết: "DeepSeek R1 là một trong những bước đột phá ấn tượng và ấn tượng nhất mà tôi từng thấy - và với tư cách là mã nguồn mở, đó là một món quà sâu sắc cho thế giới."

Sau nhiều năm ở góc sân khấu, DeepSeek cuối cùng đã đứng lên đỉnh của thế giới AI vào Tết Nguyên đán 2025.
4. Argo và DeepSeek
Với tư cách là nhà phát triển công nghệ của Argo và nhà nghiên cứu AIGC, tôi đã chuyển DeepSeek hóa các tính năng quan trọng của Argo: Với tư cách là một hệ thống luồng công việc (workflow), công việc tạo luồng công việc thô sơ được thực hiện bằng DeepSeek R1. Ngoài ra, Argo đã tích hợp LLM làm tiêu chuẩn DeepSeek R1 và chọn từ bỏ các mô hình đóng nguồn và đắt tiền của OpenAI, lý do là hệ thống Workflow thường bao gồm rất nhiều tiêu thụ Token và thông tin ngữ cảnh (trung bình> = 10k token), điều này dẫn đến việc sử dụng OpenAI hoặc Claude 3.5 với giá cao, chi phí thực thi Workflow sẽ rất đắt đỏ, và đây là một sự tổn hại cho sản phẩm trước khi người dùng web3 thực sự nhận được giá trị.
Khi DeepSeek ngày càng tốt hơn, Argo sẽ hợp tác chặt chẽ hơn với lực lượng Trung Quốc đại diện bởi DeepSeek: bao gồm nhưng không giới hạn ở việc Trung Quốc hóa các giao diện Text2Image/Video, Trung Quốc hóa LLM.
Về hợp tác, Argo sẽ mời các nhà nghiên cứu của DeepSeek chia sẻ thành quả công nghệ trong tương lai và cung cấp các khoản tài trợ cho các nhà nghiên cứu AI hàng đầu, để hỗ trợ các nhà đầu tư và người dùng web3 hiểu về tiến bộ của AI.





