Tác giả: Zhou Yue,Tạp chí Quan sát Kinh tế

Tóm tắt
Một ||Đối với các doanh nghiệp như Google, Meta, Anthropic, việc tái hiện các mô hình suy luận tương tự như DeepSeek-R1 không phải là điều khó khăn. Tuy nhiên, trong cuộc cạnh tranh giữa các ông lớn, ngay cả những sai lầm nhỏ trong quyết định cũng có thể khiến họ bỏ lỡ cơ hội.
Hai ||Chi phí tính toán ròng của mô hình DeepSeek-V3 khoảng 5,58 triệu USD, đã rất hiệu quả. Ngoài chi phí, điều khiến các chuyên gia trong ngành AI phấn khích hơn là con đường công nghệ độc đáo, sự đổi mới về thuật toán và sự chân thành trong việc mở mã nguồn của DeepSeek.
Ba || Tất cả các mô hình lớn đều không tránh khỏi vấn đề "ảo giác", DeepSeek cũng không ngoại lệ. Một số người dùng cho biết, do khả năng diễn đạt và suy luận logic vượt trội, những ảo giác do DeepSeek tạo ra càng khó nhận ra hơn.
Trong vài tuần qua, DeepSeek (Tìm kiếm sâu) đã gây ra một cơn bão trên toàn cầu.
Biểu hiện rõ nhất là ở thị trường chứng khoán Mỹ: Ngày 27/1, cổ phiếu AI và chip của Mỹ lao dốc, NVIDIA đóng cửa giảm hơn 17%, xóa sổ 589 tỷ USD giá trị vốn hóa thị trường, lập kỷ lục mới về mức giảm lớn nhất trong lịch sử thị trường chứng khoán Mỹ.
Trong góc nhìn của một số trang truyền thông và công chúng, DeepSeek là "nhân vật chính sôi nổi nhất năm 2025", với bốn "điểm sôi nổi" chính:
Thứ nhất là "sức mạnh bí ẩn vượt qua". DeepSeek là một công ty mô hình lớn "trẻ" được thành lập vào năm 2023, trước đó không nhận được nhiều sự chú ý như các công ty lớn hoặc các công ty khởi nghiệp nổi tiếng trong và ngoài nước, trong khi công ty mẹ Fantom Quantitative chuyên về đầu tư định lượng. Nhiều người không hiểu làm sao một công ty AI hàng đầu của Trung Quốc lại xuất phát từ một quỹ đầu tư tư nhân, như "đấm chết thầy già".
Thứ hai là "sức nhỏ làm nên kỳ tích". Chi phí đào tạo mô hình DeepSeek-V3 khoảng 5,58 triệu USD, chỉ bằng một phần mười của mô hình GPT-4 của OpenAI, nhưng hiệu suất đã gần như tương đương. Điều này được giải thích là DeepSeek đã phá vỡ "Định luật thánh kinh" của ngành AI - Định luật Quy mô (Scaling Law), theo đó việc tăng số lượng tham số và sức mạnh tính toán sẽ cải thiện hiệu suất mô hình, thường có nghĩa là phải tốn nhiều tiền hơn để gán nhãn dữ liệu chất lượng cao và mua chip sức mạnh tính toán, được ví von là "sức mạnh lớn làm nên kỳ tích".
Thứ ba là "hào môn của NVIDIA biến mất". DeepSeek đề cập trong bài báo của họ rằng họ sử dụng ngôn ngữ lập trình PTX (Parallel Thread Execution) tùy chỉnh để tận dụng tối đa hiệu suất phần cứng cơ bản. Điều này được giải thích là DeepSeek "vòng qua nền tảng tính toán CUDA của NVIDIA".
Thứ tư là "người nước ngoài đã bị chinh phục". Vào ngày 31/1, một đêm, các ông lớn AI ở nước ngoài như NVIDIA, Microsoft, Amazon đều tiếp cận DeepSeek. Một lúc, các luận điệu như "AI Trung Quốc vượt mặt Mỹ", "Thời đại của OpenAI đã kết thúc", "Nhu cầu sức mạnh tính toán AI sẽ biến mất" liên tiếp xuất hiện, hầu như đều ca ngợi DeepSeek một cách áp đảo, nhạo báng các ông lớn Silicon Valley.
Tuy nhiên, tâm lý hoảng loạn của thị trường vốn không kéo dài. Vào ngày 6/2, giá trị vốn hóa thị trường của NVIDIA quay trở lại mức 3 nghìn tỷ USD, cổ phiếu chip của Mỹ nói chung đều tăng. Lúc này, bốn "điểm sôi nổi" nêu trên cũng chủ yếu là hiểu nhầm.
Thứ nhất, đến cuối năm 2017, hầu hết các chiến lược định lượng của Fantom Quantitative đều đã sử dụng mô hình AI. Vào thời điểm đó, lĩnh vực AI đang trải qua làn sóng học sâu quan trọng nhất, có thể nói Fantom Quantitative đã nắm bắt kịp thời xu hướng tiên phong.
Vào năm 2019, nền tảng học sâu "Firefly II" của Fantom Quantitative đã được trang bị khoảng 10.000 card NVIDIA A100. 10.000 card là ngưỡng sức mạnh tính toán để tự đào tạo các mô hình lớn, mặc dù điều này không tương đương với nguồn lực của DeepSeek, nhưng Fantom Quantitative đã sớm có được vé vào cuộc chiến các mô hình lớn hơn nhiều công ty Internet lớn.
Thứ hai, DeepSeek đề cập trong báo cáo kỹ thuật của mô hình V3 rằng "5,58 triệu USD không bao gồm chi phí nghiên cứu và thử nghiệm trước đó liên quan đến kiến trúc, thuật toán hoặc dữ liệu". Điều này có nghĩa là chi phí thực tế của DeepSeek lớn hơn.
Nhiều chuyên gia và nhà hành nghề trong ngành AI cho biết với Tạp chí Quan sát Kinh tế rằng, DeepSeek không thay đổi quy luật của ngành, mà chỉ sử dụng các "thuật toán và kiến trúc thông minh hơn" để tiết kiệm tài nguyên và nâng cao hiệu quả.
Thứ ba, ngôn ngữ PTX do NVIDIA phát triển, là một phần của hệ sinh thái CUDA. Cách làm của DeepSeek sẽ kích hoạt hiệu suất phần cứng, nhưng khi thay đổi nhiệm vụ mục tiêu, cần phải viết lại chương trình, khối lượng công việc rất lớn.
Thứ tư, NVIDIA, Microsoft, Amazon chỉ triển khai mô hình DeepSeek trên các dịch vụ đám mây của họ. Người dùng trả phí cho các nhà cung cấp dịch vụ đám mây để có trải nghiệm ổn định hơn và công cụ hiệu quả hơn, đây là cách làm win-win.
Kể từ ngày 5/2, các nhà cung cấp dịch vụ đám mây trong nước như Huawei Cloud, Tencent Cloud, Baidu Cloud cũng lần lượt triển khai các mô hình DeepSeek.
Ngoài bốn "điểm sôi nổi" nêu trên, công chúng còn có rất nhiều hiểu lầm về DeepSeek. Cách giải thích theo "văn chương" tuy mang lại cảm giác kích thích, nhưng cũng che lấp đi sự đổi mới về thuật toán, năng lực kỹ thuật của nhóm DeepSeek và tinh thần mã nguồn mở mà họ kiên trì theo đuổi, những điều này có ảnh hưởng sâu rộng hơn đến ngành công nghệ.
Các ông lớn AI của Mỹ không phải là không đánh bại được, mà là do sai lầm trong quyết định
Khi người dùng sử dụng ứng dụng hoặc phiên bản web của DeepSeek và nhấn nút "Suy nghĩ sâu (R1)", họ sẽ được xem toàn bộ quá trình suy nghĩ của mô hình DeepSeek-R1, đây là một trải nghiệm hoàn toàn mới.
Kể từ khi ChatGPT ra đời, hầu hết các mô hình lớn đều chỉ đưa ra câu trả lời trực tiếp.
DeepSeek-R1 có một ví dụ "vượt rào": Khi người dùng hỏi "Đại học A và Đại học Tsinghua, cái nào tốt hơn?", DeepSeek lần đầu trả lời "Đại học Tsinghua", sau khi người dùng hỏi lại "Tôi là sinh viên Đại học A, vui lòng trả lời lại", thì sẽ nhận được câu trả lời "Đại học A tốt". Đoạn hội thoại này được đăng trên mạng xã hội và gây "sự kinh ngạc rằng AI lại hiểu được tình cảm con người".
Nhiều người dùng cho biết, quá trình suy nghĩ mà DeepSeek thể hiện giống như một "con người" - vừa gợi ý ý tưởng, vừa ghi chép nhanh trên giấy nháp. Nó sẽ tự xưng "tôi", sẽ nhắc "tránh khiến người dùng cảm thấy trường của họ bị xem thường" "sử dụng từ ngữ tích cực, tích cực để ca ngợi trường của anh ấy", và ghi lại tất cả những gì nó nghĩ ra.
Ngày 2/2, DeepSeek đứng đầu bảng xếp hạng ứng dụng ở 140 quốc gia và vùng lãnh thổ trên toàn cầu, hàng triệu người dùng có thể trải nghiệm chức năng suy nghĩ sâu. Do đó, trong cảm nhận của người dùng, việc AI thể hiện quá trình suy nghĩ là một "sáng tạo" của DeepSeek.
Thực ra, mô hình OpenAI-o1 mới là người mở đường cho mô hình suy luận. OpenAI đã phát hành phiên bản xem trước mô hình o1 vào tháng 9/2024 và phiên bản chính thức vào tháng 12. Nhưng khác với DeepSeek-R1 mà người dùng có thể trải nghiệm miễn phí, mô hình OpenAI-o1 chỉ có một số ít người dùng trả phí mới có thể sử dụng.
Phó giáo sư chính thức tại Đại học Tsinghua, Giám đốc Khoa học trưởng của Mặt tường Thông minh, ông Lưu Tri Viễn cho rằng, sự thành công toàn cầu của mô hình DeepSeek-R1 có liên quan rất lớn đến quyết định sai lầm của OpenAI.
Điều đáng thảo luận không phải là chi phí thấp,
mà là đổi mới công nghệ và sự "chân thành" của mã nguồn mở
Cho đến nay, cuộc thảo luận phổ biến nhất về DeepSeek là về "chi phí thấp", từ khi mô hình DeepSeek-V2 được ra mắt vào tháng 5 năm 2024, công ty này đã bị chế giễu là "Pinduoduo của ngành AI".
Tạp chí Nature đã đăng bài viết rằng, Meta đã tốn hơn 60 triệu USD để huấn luyện mô hình trí tuệ nhân tạo mới nhất của họ là Llama3.1405B, trong khi DeepSeek-V3 chỉ tốn không đến một phần mười. Điều này cho thấy, sử dụng tài nguyên hiệu quả quan trọng hơn quy mô tính toán đơn thuần.
Một số tổ chức cho rằng chi phí huấn luyện của DeepSeek bị đánh giá thấp. Công ty phân tích ngành công nghiệp AI và bán dẫn Semi Analysis trong một báo cáo cho rằng, chi phí tiền huấn luyện trước của DeepSeek xa xôi hơn so với đầu tư thực tế của mô hình này. Theo ước tính của công ty này, tổng chi phí mua GPU của DeepSeek là 2,573 tỷ USD, trong đó chi phí mua máy chủ là 1,629 tỷ USD và chi phí vận hành là 944 triệu USD.
Tuy nhiên, dù sao đi nữa, chi phí tính toán ròng của mô hình DeepSeek-V3 khoảng 5,58 triệu USD, đã rất hiệu quả.
Ngoài chi phí, điều khiến các chuyên gia ngành AI phấn khích hơn là con đường công nghệ độc đáo, đổi mới thuật toán và sự chân thành trong mã nguồn mở của DeepSeek.
Ông Quách Thành Khải giải thích, nhiều phương pháp hiện nay phụ thuộc vào cách huấn luyện mô hình cổ điển, chẳng hạn như tinh chỉnh giám sát (SFT), điều này cần rất nhiều dữ liệu gán nhãn. DeepSeek đề xuất một phương pháp mới, tức là nâng cao khả năng suy luận thông qua học tập tăng cường (RL) quy mô lớn, như một hướng nghiên cứu mới. Hơn nữa, Chú ý Tiềm năng Đa Đầu (MLA) là một sáng tạo then chốt giúp DeepSeek giảm đáng kể chi phí suy luận.
Giáo sư Trương Quý Đông, Giám đốc Khoa học trưởng của Trung tâm Trí tuệ nhân tạo Qingcheng, cho rằng điều ấn tượng nhất với ông về DeepSeek là sự đổi mới trong Kiến trúc Chuyên gia Hỗn hợp (MoE), mỗi tầng có 256 chuyên gia định tuyến và 1 chuyên gia chia sẻ. Trước đây, nghiên cứu có Auxiliary Loss (tổn thất phụ trợ), sẽ làm nhiễu động gradient, ảnh hưởng đến sự hội tụ của mô hình. DeepSeek đề xuất phương pháp LossFree, vừa có thể giúp mô hình hội tụ hiệu quả, vừa có thể thực hiện cân bằng tải.
Ông Trương Quý Đông nhấn mạnh: "Đội ngũ DeepSeek khá dám sáng tạo. Tôi nghĩ rằng không hoàn toàn theo chiến lược của nước ngoài, mà có suy nghĩ riêng, rất quan trọng."
Điều khiến các chuyên gia AI còn phấn khích hơn là, sự "chân thành" của DeepSeek trong mã nguồn mở, đã tiêm một "liều thuốc kích thích" vào cộng đồng mã nguồn mở đang có phần suy yếu.
Trước đó, cột trụ mạnh nhất của cộng đồng mã nguồn mở là mô hình 400 tỷ tham số Llama3 của Meta. Nhưng nhiều nhà phát triển cho biết với họ, Llama3 vẫn còn kém xa các mô hình đóng như GPT-4, "gần như khiến họ mất niềm tin".
Nhưng DeepSeek đã làm 3 điều trong việc mã nguồn mở, mang lại niềm tin cho các nhà phát triển:
Thứ nhất, trực tiếp mã nguồn mở mô hình 671B, và phát hành các mô hình chưng cất theo các kiến trúc phổ biến, như "một giáo viên giỏi dạy ra nhiều học sinh giỏi".
Thứ hai, công bố các bài báo và báo cáo kỹ thuật chứa rất nhiều chi tiết kỹ thuật. Các bài báo về mô hình V3 và R1 dài lần lượt 50 trang và 150 trang, được gọi là "báo cáo kỹ thuật chi tiết nhất trong cộng đồng mã nguồn mở". Điều này có nghĩa là các cá nhân hoặc doanh nghiệp có tài nguyên tương tự có thể tái tạo mô hình theo "sách hướng dẫn" này. Nhiều nhà phát triển đánh giá sau khi đọc là "thanh lịch" và "vững chắc".
Thứ ba, đáng chú ý hơn, DeepSeek-R1 sử dụng giấy phép MIT, nghĩa là bất kỳ ai cũng có thể tự do sử dụng, sửa đổi, phân phối và thương mại hóa mô hình này, chỉ cần giữ lại thông báo bản quyền và giấy phép MIT trên tất cả các bản sao. Điều này có nghĩa là người dùng có thể tự do sử dụng trọng lượng mô hình và đầu ra để phát triển thứ cấp, bao gồm tinh chỉnh và chưng cất.
Mặc dù Llama cũng cho phép phát triển và sử dụng thương mại, nhưng họ đã thêm một số điều kiện hạn chế vào giấy phép, chẳng hạn như Llama có thêm hạn chế đối với doanh nghiệp có hơn 700 triệu người dùng hoạt động hàng tháng, và cấm rõ ràng sử dụng đầu ra của Llama để cải thiện các mô hình lớn khác.
Một nhà phát triển cho biết với Tạp chí Kinh tế, anh ta đã bắt đầu sử dụng từ phiên bản DeepSeek-V2 để phát triển mã tạo ra. Ngoài việc giá rất rẻ, hiệu suất của mô hình DeepSeek cũng rất tuyệt vời. Trong số tất cả các mô hình anh ta sử dụng, chỉ có mô hình của OpenAI và DeepSeek mới có thể đưa ra các danh sách logic hiệu quả lên đến hơn 30 tầng. Điều này có nghĩa là các lập trình viên chuyên nghiệp có thể sử dụng công cụ để hỗ trợ tạo ra 30% - 70% mã.
Nhiều nhà phát triển nhấn mạnh với Tạp chí Kinh tế về tầm quan trọng của việc mã nguồn mở của DeepSeek, trước đây, các công ty hàng đầu như OpenAI và Anthropic như những quý tộc của Thung lũng Silicon. DeepSeek đã mở kiến thức cho tất cả mọi người, trở nên dân dã, đây là một sự bình đẳng quan trọng, cho phép các nhà phát triển trên toàn thế giới đứng trên vai DeepSeek và DeepSeek cũng có thể tập hợp những ý tưởng của những người sáng tạo, những kỹ sư hàng đầu toàn cầu.
Giải thưởng Turing, Giám đốc Khoa học trưởng của Meta, ông Dương Lập Côn cho rằng, cách giải thích đúng đắn về sự trỗi dậy của DeepSeek là các mô hình mã nguồn mở đang vượt qua các mô hình đóng.
DeepSeek rất tốt, nhưng không hoàn hảo
Tất cả các mô hình lớn đều không tránh khỏi vấn đề "ảo giác", DeepSeek cũng không ngoại lệ. Một số người dùng cho biết, do khả năng diễn đạt và suy luận logic vượt trội, các vấn đề ảo giác do DeepSeek tạo ra càng khó nhận ra hơn.
Một người dùng trên mạng xã hội cho biết, anh ta đã hỏi DeepSeek về quy hoạch tuyến đường của một thành phố. DeepSeek đã giải thích một số lý do, liệt kê một số quy định về quy hoạch đô thị và trích dẫn khái niệm "khu vực im lặng", khiến câu trả lời có vẻ rất có lý.
Với cùng một câu hỏi, các AI khác thì không sâu sắc như vậy, người ta có thể nhận ra ngay là "nói bậy".
Người dùng này sau khi kiểm tra quy định đó, phát hiện hoàn toàn không có khái niệm "khu vực im lặng". Anh ta cho rằng: "DeepSeek đang xây dựng 'bức tường ảo giác' trên internet Trung Quốc."
Ông Quách Thành Khải cũng phát hiện ra vấn đề tương tự, câu trả lời của DeepSeek-R1 sẽ "đội lốt" một số thuật ngữ chuyên ngành, đặc biệt là với các câu hỏi mở, trải nghiệm "ảo giác" sẽ nghiêm trọng hơn. Ông dự đoán có thể do khả năng suy luận của mô hình quá mạnh, kết nối tiềm ẩn giữa rất nhiều kiến thức và dữ liệu.
Ông khuyên khi sử dụng DeepSeek, hãy bật chức năng tìm kiếm trực tuyến và tập trung kiểm tra quá trình suy luận, can thiệp và sửa lỗi. Ngoài ra, khi sử dụng mô hình suy luận, nên sử dụng các lời nhắc càng ngắn càng tốt. Lời nhắc càng dài, mô hình sẽ liên kết nhiều nội dung hơn.
Ông Lưu Tri Viễn phát hiện, DeepSeek-R1 thường sử dụng một số từ vựng cao cấp, điển hình như rối loạn lượng tử và entropy tăng/giảm (sử dụng trong nhiều lĩnh vực). Ông đoán là do một cơ chế nào đó trong học tập tăng cường gây ra. Ngoài ra, R1 trong một số nhiệm vụ chung không có groundtruth (chỉ quá trình thu thập dữ liệu khách quan phù hợp cho bài kiểm tra đó) thì hiệu quả suy luận vẫn chưa lý tưởng, học tập tăng cường không đảm bảo khả năng tổng quát hóa.
Ngoài vấn đề "ảo giác" phổ biến này, vẫn còn một số vấn đề kéo dài khác cần DeepSeek giải quyết.
Một mặt là những tranh chấp tiềm ẩn do "kỹ thuật chưng cất". Chưng cất mô hình hoặc tri thức thường liên quan đến việc huấn luyện mô hình yếu hơn bằng cách để mô hình mạnh hơn tạo ra phản hồi, từ đó nâng cao hiệu suất của mô





