Công ty khởi nghiệp AI của Trung Quốc, DeepSeek, gần đây đã lần lượt phát hành hai mô hình lớn "DeepSeek-V3" và "DeepSeek-R1". Do tuyên bố chi phí thấp, hiệu suất tương đương với OpenAI, nên đã gây chấn động Thung lũng Silicon và được cho là có thể thay đổi các quy tắc chơi trong lĩnh vực mô hình lớn AI.
Ông Cao thảo luận về tác động của DeepSeek
Về vấn đề này, YouTuber Ông Cao đã đăng tải video với tiêu đề "DeepSeek gây ra tác động toàn cầu lớn, đã châm ngòi một cuộc chiến không khói lửa giữa Trung - Mỹ", chia sẻ quan điểm của ông về DeepSeek.
Ông Cao chỉ ra rằng, thành công của DeepSeek không chỉ nằm ở hiệu suất của mô hình AI tương đương với ChatGPT, mà còn ở chi phí phát triển cực thấp. DeepSeek chỉ tốn 5,6 triệu USD (thực tế, chi phí hiện tại vẫn còn nhiều tranh cãi, có thể không thấp đến vậy) để phát triển mô hình hàng đầu của họ, chỉ bằng khoảng 1% so với OpenAI, điều này đã tăng cường đáng kể sức cạnh tranh của DeepSeek trong lĩnh vực AI và gây ra sự đánh giá lại về chi phí và hiệu quả phát triển AI trong thị trường.
Ông Cao cho rằng, bước đột phá lớn nhất của DeepSeek là chiến lược mã nguồn mở, khác với mô hình đóng của OpenAI, DeepSeek đã công khai mô hình AI của họ, cho phép bất kỳ ai cũng có thể tải xuống và chạy cục bộ, thậm chí sử dụng cho mục đích thương mại. Động thái này không chỉ giảm đáng kể rào cản cho các doanh nghiệp và cá nhân sử dụng AI, mà còn gây ra tác động lớn đối với các công ty như OpenAI, những công ty phụ thuộc vào mô hình đóng để kiếm lợi nhuận.
DeepSeek đã sao chép ChatGPT?
Ngoài ra, Ông Cao cho rằng, cáo buộc DeepSeek sao chép ChatGPT rõ ràng là không đúng, vì ChatGPT sử dụng mô hình đóng, nên hoạt động bên trong của nó không thể bị sao chép bên ngoài, trong khi DeepSeek là một dự án mã nguồn mở, tất cả mã nguồn và dữ liệu đều được công khai minh bạch, nếu có hành vi sao chép, OpenAI đã có thể phát hiện ra từ lâu. Điều này giống như một số hệ điều hành nổi tiếng khác, do đóng nên khó bị sao chép.
Ông Cao mô tả rằng, thành quả của DeepSeek và ChatGPT chỉ có thể tương tự về cảm hứng, chứ không phải sao chép trực tiếp, vì không ai có thể nhìn thấy "bí quyết nấu ăn" của đối phương.
Ông Cao cũng tuyên bố rằng, thành công của DeepSeek là do họ có thể vượt qua nền tảng tính toán song song CUDA của Nvidia. Từ trước đến nay, CUDA như một nhà máy điện hạt nhân, chuyển đổi khả năng tính toán mạnh mẽ của chip thành nguồn tài nguyên tính toán ổn định và hiệu quả, tạo thành rào cản kỹ thuật khó vượt qua.
Theo Ông Cao, DeepSeek có thể vượt qua giới hạn tốc độ đào tạo do phần cứng, nghĩa là không còn phụ thuộc vào CUDA nữa, điều này có nghĩa là bất kể sử dụng chip của công ty nào, chỉ cần kết nối với công nghệ này, đều có thể đạt được hiệu suất tính toán tối đa, không cần sử dụng CUDA, từ đó làm suy yếu vị thế độc quyền của Nvidia trong thị trường tính toán.
DeepSeek thực sự đã vượt qua khung CUDA của Nvidia?
Tuy nhiên, theo các chuyên gia trả lời cho BlockTempo, quan điểm trong video của Ông Cao có sai sót. Hiện tại, Deepseek tuyệt đối đang sử dụng card đồ họa của Nvidia để tính toán và vẫn sử dụng nền tảng CUDA.
Các chuyên gia chỉ ra rằng, Ông Cao có thể đã hiểu nhầm các tin tức gần đây. Deepseek gần đây được truyền thông đưa tin là đang chuẩn bị cho khả năng bị cấm sử dụng trong tương lai, ngay cả khi không thể sử dụng card đồ họa của Nvidia, họ cũng có kế hoạch sử dụng GPU trong nước Trung Quốc (cũng có thông tin cho rằng Trung Quốc vẫn thu được lượng lớn chip Nvidia thông qua các kênh xám), nhưng điều này không có nghĩa là hiện tại công ty này đang "vượt qua CUDA".
Trước đó, Tom's Hardware đã báo cáo rằng, khi DeepSeek sử dụng chip H800 của Nvidia để huấn luyện, một số chức năng sử dụng ngôn ngữ PTX cấp thấp của phần cứng Nvidia, thay vì ngôn ngữ lập trình cấp cao CUDA. Theo phân tích của Phó giáo sư Hoàng Lôi tại Đại học Hàng không Không gian Bắc Kinh, việc vượt qua CUDA có nghĩa là DeepSeek có thể trực tiếp phát triển dựa trên các hàm lái của GPU, từ đó thực hiện các thao tác tinh vi hơn.





