Tác giả: Nguyễn Yến, phóng viên của Thông tấn xã Bành Bái
·Một nhà săn đầu người có trách nhiệm tìm kiếm nhân tài cấp cao trong lĩnh vực mô hình lớn cho biết với Thông tấn xã Bành Bái rằng logic tuyển dụng của DeepSeek không khác biệt nhiều so với các công ty khác trong lĩnh vực mô hình lớn, tiêu chí cốt lõi đối với nhân tài là "trẻ, tiềm năng cao", tức là sinh năm 1998 trở về sau, kinh nghiệm làm việc tốt nhất không quá 5 năm, "thông minh, kỹ thuật, trẻ, ít kinh nghiệm".
·Trong mắt những người trong ngành, so với các công ty khởi nghiệp mô hình lớn khác ở Trung Quốc, DeepSeek may mắn hơn, không có áp lực về tài trợ, không cần phải chứng minh với các nhà đầu tư, không cần phải thực hiện song song công việc lặp đi lặp lại về công nghệ mô hình và tối ưu hóa ứng dụng sản phẩm. Nhưng với tư cách là một công ty thương mại, sau khi đầu tư lớn, sớm hay muộn cũng sẽ phải đối mặt với áp lực và thách thức mà các công ty mô hình khác đang gặp phải.
Công ty nào sẽ là tâm điểm của làng mô hình lớn Trung Quốc vào năm 2024? Công ty Nghiên cứu Kỹ thuật Trí tuệ Nhân tạo Sâu Hàng Châu (sau đây gọi tắt là DeepSeek) chắc chắn là một ứng cử viên mạnh mẽ. Nếu nói rằng DeepSeek là người khởi xướng cuộc chiến giá cả mô hình lớn vào giữa năm ngoái, thì đến cuối năm và đầu năm nay, DeepSeek liên tiếp công bố mô hình mã nguồn mở DeepSeek-V3 và mô hình suy luận DeepSeek-R1, hoàn toàn gây chấn động trong giới mô hình lớn. Mọi người vừa ngạc nhiên trước chi phí đào tạo hiệu quả cao của DeepSeek (được cho là chỉ tốn 5,576 triệu USD để đào tạo DeepSeek-V3), vừa vỗ tay tán thưởng hành động mở mã nguồn và công bố báo cáo kỹ thuật của họ. Việc ra mắt DeepSeek-R1 khiến nhiều nhà khoa học, nhà phát triển và người dùng vô cùng phấn khích, thậm chí cho rằng DeepSeek là đối thủ đáng gờm của mô hình suy luận o1 của OpenAI.
Tại sao công ty ít tiếng tăm này lại có thể tạo ra các mô hình lớn có hiệu suất tốt với chi phí đào tạo cực thấp? Những gì họ đã làm đúng đã giúp họ trở nên nổi tiếng như vậy? Trong tương lai, họ sẽ phải đối mặt với những thách thức nào để tiếp tục vượt sóng trong "làng mô hình"?
Đổi mới thuật toán giúp giảm đáng kể chi phí tính toán
"DeepSeek đầu tư sớm, tích lũy nhiều, có những đặc điểm riêng về thuật toán." Một lãnh đạo của một công ty khởi nghiệp mô hình lớn nổi tiếng ở Trung Quốc cho biết khi nhắc đến DeepSeek, ông cho rằng lợi thế cốt lõi khiến DeepSeek nổi tiếng là nhờ đổi mới thuật toán, "Các công ty Trung Quốc do thiếu tính toán, nên sẽ chú trọng tiết kiệm chi phí tính toán hơn OpenAI."
Theo thông tin công bố về DeepSeek-R1, trong giai đoạn sau đào tạo (Post-Training), họ đã sử dụng rộng rãi kỹ thuật học tăng cường (Reinforcement learning), trong trường hợp chỉ có rất ít dữ liệu gán nhãn, đã cải thiện đáng kể khả năng suy luận của mô hình. Trong các nhiệm vụ như toán học, lập trình, suy luận ngôn ngữ tự nhiên, hiệu suất ngang ngửa với phiên bản chính thức của OpenAI o1.

Giá API DeepSeek-R1
Trước đây, sáng lập viên DeepSeek Lương Văn Phong đã nhiều lần nhấn mạnh rằng DeepSeek tập trung khai thác hướng công nghệ khác biệt, chứ không phải sao chép mô hình của OpenAI, DeepSeek phải tìm ra phương pháp hiệu quả hơn để đào tạo mô hình của họ.
"Họ đã sử dụng một loạt các kỹ thuật kỹ thuật để tối ưu hóa kiến trúc mô hình, chẳng hạn như sử dụng sáng tạo phương pháp kết hợp mô hình, với mục đích cơ bản là giảm chi phí thông qua kỹ thuật để có thể sinh lời." Một chuyên gia lâu năm trong ngành công nghệ cho biết với Thông tấn xã Bành Bái.
Dựa trên thông tin công bố của DeepSeek, họ đã đạt được những tiến bộ đáng kể trong cơ chế chú ý tiềm ẩn đa đầu (MLA - Multi-head Latent Attention) và cấu trúc mô hình chuyên gia kết hợp (DeepSeekMOE - Mixture-of-Experts) do họ tự phát triển. Hai thiết kế kỹ thuật này đã giảm tài nguyên tính toán trong quá trình đào tạo, giúp mô hình DeepSeek trở nên hiệu quả về chi phí, đồng thời cũng nâng cao hiệu suất đào tạo. Theo dữ liệu của tổ chức nghiên cứu Epoch AI, mô hình mới nhất của DeepSeek rất hiệu quả.
Về dữ liệu, khác với cách "ăn tạm dữ liệu khổng lồ" của OpenAI, DeepSeek sử dụng thuật toán để tóm tắt và phân loại dữ liệu, sau khi xử lý chọn lọc, cung cấp cho mô hình lớn, cải thiện hiệu suất đào tạo và giảm chi phí của DeepSeek. Sự xuất hiện của DeepSeek-V3 đã cân bằng được hiệu suất cao và chi phí thấp, mang lại những khả năng mới cho sự phát triển của mô hình lớn.
"Có lẽ trong tương lai sẽ không cần cụm GPU siêu lớn nữa." Sau khi công bố mô hình hiệu quả về chi phí của DeepSeek, Andrej Karpathy, thành viên sáng lập của OpenAI, đã lên tiếng.
Phó giáo sư chính thức của Khoa Máy tính, Đại học Thanh Hoa, Lưu Tri Viễn, cho biết với Thông tấn xã Bành Bái rằng, sự nổi lên của DeepSeek chính là bằng chứng cho thấy lợi thế cạnh tranh của chúng ta, thông qua việc tận dụng tối đa hiệu quả các nguồn lực hạn chế, đạt được thắng lợi bằng ít. Việc ra mắt R1 cho thấy khoảng cách về năng lực trí tuệ nhân tạo giữa chúng ta và Mỹ đã rõ rệt thu hẹp. Tạp chí The Economist trong số mới nhất cũng đưa tin: "DeepSeek đang đồng thời thay đổi ngành công nghệ với thiết kế mô hình và đào tạo chi phí thấp của họ."
Giám đốc điều hành và đồng sáng lập của Google DeepMind, Demis Hassabis, cho biết rằng mặc dù chưa hoàn toàn rõ ràng về mức độ phụ thuộc của DeepSeek vào dữ liệu đào tạo và mô hình mã nguồn mở của phương Tây, nhưng phải công nhận những thành tựu mà nhóm này đạt được thực sự ấn tượng. Một mặt, ông công nhận Trung Quốc có năng lực kỹ thuật và khả năng quy mô rất mạnh, mặt khác, ông cũng chỉ ra rằng phương Tây vẫn dẫn đầu và cần xem xét cách duy trì vị thế tiên phong của các mô hình tiên tiến phương Tây.
Tích lũy nhiều năm, kết quả cuối cùng
Thành công của DeepSeek không phải một sớm một chiều, mà là kết quả của quá trình "ấp trứng" nhiều năm, sau khi lên kế hoạch lâu dài. Lương Văn Phong cũng là nhà sáng lập của quỹ phòng hộ hàng đầu Vạn Phương Lượng Hóa. DeepSeek được cho là đã tận dụng triệt để nguồn vốn, dữ liệu và thẻ tích lũy từ Vạn Phương Lượng Hóa.
Lương Văn Phong tốt nghiệp cử nhân và thạc sĩ tại Đại học Chiết Giang, có bằng cử nhân và thạc sĩ về Hệ thống Thông tin và Điện tử. Từ năm 2008, ông bắt đầu dẫn dắt nhóm sử dụng các kỹ thuật học máy để khám phá giao dịch định lượng hoàn toàn tự động. Năm 2015, Vạn Phương Lượng Hóa được thành lập, và năm sau đưa ra mô hình AI đầu tiên, vị trí giao dịch đầu tiên do học sâu tạo ra được triển khai thực hiện, năm 2018 xác định AI là hướng phát triển chính. Năm 2020, Vạn Phương đã đầu tư hơn 100 triệu đồng, xây dựng siêu máy tính trí tuệ nhân tạo "Huỳnh Hỏa Số 1" với diện tích tương đương một sân bóng rổ, được cho là có sức mạnh tính toán tương đương 40.000 máy tính cá nhân. Năm 2021, Vạn Phương đầu tư 1 tỷ đồng xây dựng "Huỳnh Hỏa Số 2", "trang bị 10.000 chip GPU A100". Lúc đó, ở Trung Quốc không quá 5 công ty có trên 10.000 GPU, ngoài Vạn Phương Lượng Hóa ra, những công ty khác đều là các tập đoàn Internet lớn.
Tháng 7/2023, DeepSeek chính thức thành lập, tiến quân vào lĩnh vực trí tuệ nhân tạo tổng quát, cho đến nay chưa từng huy động vốn bên ngoài.
"Có nguồn thẻ tương đối dồi dào, không có áp lực về tài trợ, trong những năm đầu chỉ làm mô hình không làm sản phẩm, khiến DeepSeek trông đơn giản và tập trung hơn so với các công ty mô hình lớn khác ở Trung Quốc, có thể đạt được một số bước đột phá về kỹ thuật kỹ thuật và thuật toán." Lãnh đạo công ty mô hình lớn trong nước nói trên.
Ngoài ra, khi ngành mô hình lớn ngày càng theo hướng khép kín, OpenAI bị gọi đùa là "CloseAI", hành động mở mã nguồn và công bố báo cáo kỹ thu
Một nhà săn đầu người có trách nhiệm tìm kiếm nhân tài công nghệ cao trong lĩnh vực mô hình lớn cho biết với Thủy triều Bùng nổ rằng logic tuyển dụng của DeepSeek không khác biệt nhiều so với các công ty khác trong lĩnh vực mô hình lớn, tiêu chí cốt lõi đối với nhân tài là "trẻ, tiềm năng cao", tức là sinh năm 1998 trở về sau, kinh nghiệm làm việc tốt nhất không quá 5 năm, "thông minh, kỹ thuật, trẻ, ít kinh nghiệm".
Tuy nhiên, nhà săn đầu người trên cũng cho biết, các công ty khởi nghiệp mô hình lớn vẫn là công ty khởi nghiệp, không phải là không muốn tuyển dụng nhân tài AI hàng đầu quốc tế, nhưng thực tế là không nhiều nhân tài AI hàng đầu quốc tế muốn trở về.
Một nhân viên DeepSeek không muốn tiết lộ tên cho biết với Thủy triều Bùng nổ rằng công ty có cấu trúc quản lý rất phẳng, có không khí trao đổi tự do. Lương Văn Phong thường xuyên không có mặt, hầu hết thời gian mọi người và ông đều giao tiếp trực tuyến.
Nhân viên này trước đây từng làm nghiên cứu và phát triển công nghệ mô hình lớn tại một công ty lớn trong nước, nhưng cảm thấy bản thân ở công ty lớn chỉ như một con ốc vít, không thể tạo ra giá trị, cuối cùng đã chọn gia nhập DeepSeek. Theo anh, DeepSeek hiện tại tập trung nhiều hơn vào công nghệ mô hình cơ bản.
Môi trường làm việc của DeepSeek hoàn toàn từ dưới lên, phân công tự nhiên, mỗi người không giới hạn việc điều động thẻ và nhân sự, "tự mang ý tưởng, không cần thúc đẩy. Trong quá trình khám phá, khi gặp vấn đề, họ sẽ tự kéo người khác thảo luận", Lương Văn Phong từng nói trong một cuộc phỏng vấn.
"Cho rằng Trung Quốc đã vượt qua Mỹ về AI còn sớm"
Phương tiện truyền thông kinh doanh Mỹ Business Insider phân tích cho rằng, R1 mới được phát hành cho thấy Trung Quốc có thể sánh ngang với một số mô hình trí tuệ nhân tạo hàng đầu trong ngành, và vẫn đi cùng với sự phát triển tiên phong của Thung lũng Silicon Mỹ; thứ hai, mã nguồn mở công nghệ trí tuệ nhân tạo tiên tiến như vậy cũng có thể gây thách thức cho những công ty muốn thu lợi khổng lồ bằng cách bán công nghệ.
Tuy nhiên, hiện tại hô hào "Trung Quốc đã vượt qua Mỹ về AI" có lẽ còn sớm. Lưu Tri Viễn công khai tuyên bố cần cảnh giác trước việc dư luận chuyển từ cực độ bi quan sang cực độ lạc quan, cho rằng chúng ta đã hoàn toàn vượt qua, dẫn đầu xa, "vẫn còn xa mới đạt được". Lưu Tri Viễn cho rằng, các công nghệ mới của AGI hiện đang tăng tốc phát triển, hướng phát triển trong tương lai vẫn chưa rõ ràng, Trung Quốc vẫn đang ở giai đoạn đuổi kịp, mặc dù không còn bị bỏ lại xa, nhưng chỉ có thể nói là đang theo sát, "trên con đường đã được người khác khám phá ra, chạy nhanh theo vẫn tương đối dễ dàng, nhưng tiếp theo làm thế nào để khai phá ra những con đường mới trong sương mù, mới là thách thức lớn hơn".
"Bây giờ quá căng rồi, mọi người đều quá vội vã, không nhận ra rằng cuối cùng DeepSeek cũng đã chạy ra được." Một người thân cận với DeepSeek than thở với Thủy triều Bùng nổ, tốc độ thay đổi của ngành quá nhanh, không thể dự đoán được bước tiếp theo sẽ làm gì, chỉ có thể xem xét những thay đổi trong Q3 tiếp theo.
Demis Hassabis một mặt công nhận Trung Quốc có năng lực kỹ thuật và khả năng quy mô rất mạnh, mặt khác, ông cũng chỉ ra rằng phương Tây vẫn dẫn đầu, và cần phải xem xét cách duy trì vị thế dẫn đầu của các mô hình tiên phong phương Tây.
Mặc dù trước đây Lương Văn Phong đã tuyên bố công khai rằng DeepSeek chỉ làm mô hình chứ không làm sản phẩm. Nhưng với tư cách là một công ty thương mại hóa, gần như không thể mãi chỉ làm mô hình mà không làm sản phẩm. Ngày 15/1, ứng dụng chính thức của DeepSeek đã chính thức ra mắt. Người thân cận với DeepSeek cho biết với Thủy triều Bùng nổ rằng việc thương mại hóa đã được DeepSeek đưa lên lịch trình.
Trong nhận định của các chuyên gia trong ngành, so với các công ty khởi nghiệp mô hình lớn khác trong nước, DeepSeek may mắn hơn, không có áp lực về tài trợ, không cần phải chứng minh với nhà đầu tư, không cần phải thực hiện cả việc lặp đi lặp lại công nghệ mô hình và tối ưu hóa ứng dụng sản phẩm. Nhưng với tư cách là một công ty thương mại, sau khi đầu tư khổng lồ, sớm hay muộn cũng sẽ phải đối mặt với áp lực và thách thức mà các công ty mô hình khác đang gặp phải. "Lần này ra mắt là một chiến dịch marketing thành công của DeepSeek trước thềm thương mại hóa, nhưng trong tương lai khi thực sự thương mại hóa, sẽ phải chịu sự kiểm chứng của thị trường, liệu có thể tiếp tục vượt sóng tiến lên vẫn còn khó nói." Chuyên gia mô hình trên nói.
Có thể chắc chắn rằng, DeepSeek sẽ phải đối mặt với nhiều áp lực và thách thức hơn trong tương lai, cuộc đua đến mô hình chung vẫn mới chỉ bắt đầu, ai sẽ thắng cuộc vẫn phụ thuộc vào nguồn vốn đầu tư liên tục và sự lặp đi lặp lại công nghệ. Nhưng các chuyên gia trong ngành cũng đều cho rằng, "đối với ngành mô hình trong nước, có công ty như DeepSeek với thực lực kỹ thuật thực sự tham gia, là điều tốt."



