Cuộc thảo luận kín giữa các doanh nhân AI Trung Quốc và Mỹ: Những thay đổi và xu hướng mới trong kinh doanh AI sau DeepSeek-R1

TechFlow

02-12

Bài viết này được dịch máy

Xem bản gốc

Dưới đây là bản dịch tiếng Việt của văn bản, với các từ và cụm từ được dịch như hướng dẫn:

Chatbot không nhất thiết sẽ là sản phẩm AI đầu tiên của người dùng.

Nguồn bài viết:FounderPark

Nguồn ảnh: Được tạo bởi vô giới hạn AI

DeepSeek không nghi ngờ gì là tâm điểm trong dịp Tết Nguyên đán 2025, từ việc đứng đầu bảng miễn phí trên App Store của Apple đến việc các nhà cung cấp dịch vụ đám mây tranh nhau triển khai DeepSeek-R1, DeepSeek thậm chí trở thành sản phẩm AI đầu tiên mà nhiều người được trải nghiệm. Đối với các nhà khởi nghiệp, từ thảo luận về các điểm sáng tạo công nghệ, phân tích chi phí huấn luyện và suy luận đến ảnh hưởng của nó đối với toàn ngành AI, mọi người đều đang bàn luận.

Vào ngày 2 tháng 2, Founder Park và cộng đồng kín toàn cầu Global Ready thuộc Geek Park đã tổ chức một cuộc thảo luận kín, mời hơn 60 nhà sáng lập và chuyên gia kỹ thuật của các công ty AI tại Thung lũng Silicon, Trung Quốc, London, Singapore, Nhật Bản, v.v. để thảo luận sâu về các hướng đi công nghệ mới và xu hướng sản phẩm được khơi mào bởi DeepSeek, từ góc độ đổi mới công nghệ, triển khai sản phẩm và thiếu hụt tính toán.

Sau khi xử lý xóa thông tin nhạy cảm, chúng tôi đã tổng hợp các điểm chính của cuộc thảo luận kín này.

01 Sự đổi mới của DeepSeek nằm ở đâu?

DeepSeek đã phát hành mô hình cơ sở V3 vào cuối tháng 12, đây là một trong những mô hình mạnh nhất hiện có trong cộng đồng mã nguồn mở, bao gồm 37B tham số kích hoạt, tổng quy mô tham số là 671B, đây là một mô hình MoE (Mixture of Experts) lớn.

Mô hình R1 được phát hành vào tháng 1 năm 2025 có "Aha moment" là khi mô hình thể hiện một số khả năng phản思trong quá trình suy luận. Ví dụ, trong quá trình giải quyết vấn đề, mô hình có thể nhận ra rằng một phương pháp nào đó không còn phù hợp và điều chỉnh sang phương pháp hiệu quả hơn trong quá trình đó. Khả năng phản tư này đến từ học tăng cường (RL).

R1 là mô hình cờ hiệu của DeepSeek, tương đương với o1 của OpenAI về khả năng suy luận, phương pháp cụ thể có thể tóm tắt như sau: R1 thông qua hai bước học tăng cường và hai bước SFT, hai bước đầu tiên của RL và SFT chủ yếu dùng để xây dựng một mô hình giáo viên tạo dữ liệu, hướng dẫn bước thứ ba tạo dữ liệu. Mô hình này nhằm trở thành mô hình suy luận mạnh nhất hiện nay.

Sự đổi mới cốt lõi của mô hình DeepSeek R1-Zero là bỏ qua quá trình tinh chỉnh truyền thống (SFT), trực tiếp tối ưu suy luận thông qua học tăng cường (RL). Ngoài ra, sử dụng R1 làm mô hình giáo viên để chưng cất một mô hình nguồn mở nhỏ (như Qwen1.7B/7B/14B/32B) có thể nâng cao đáng kể khả năng của mô hình nhỏ.
Về khả năng lập trình, R1 của DeepSeek không thua kém o3 mini vừa ra mắt của OpenAI, tổng thể o3 mini hơi mạnh hơn một chút. Điểm khác biệt là R1 là mã nguồn mở, sẽ kích thích nhiều ứng dụng sử dụng R1 hơn.
Thành công của DeepSeek là nhờ sử dụng một giải pháp kỹ thuật tích hợp cao để hạ giá thành. Nếu tách riêng từng phương pháp của họ ra, đều có thể tìm thấy trong các bài báo năm ngoái, nhưng DeepSeek sẽ sử dụng rất mạnh mẽ các phương pháp mới nhất. Những phương pháp này bản thân có thể sẽ có tác dụng phụ, sẽ tăng thêm chi phí lưu trữ, nhưng lại có tác dụng rất lớn trong việc giảm tỷ lệ chạy không của cụm máy tính.
Nếu không phải là mô hình phục vụ quy mô lớn cho nhiều người, kiến trúc MLA lại có thể có tác dụng phụ. Phần lớn các phương pháp của DeepSeek nếu không được áp dụng trong các kịch bản và môi trường cụ thể, sẽ không đạt được tối ưu hóa hiệu suất tối đa, sử dụng riêng rẽ các công nghệ này lại có thể sẽ có tác dụng phụ. Thiết kế hệ thống của họ rất tinh tế, đến mức bất cứ khi nào tách riêng các công nghệ này ra, đều không thể tạo ra được hiệu quả như họ.
Không nên chỉ huấn luyện một mô hình thưởng cho quá trình (process reward model), vì nếu chỉ huấn luyện loại mô hình này, kết quả cuối cùng có thể không đạt được như mong đợi, thậm chí có thể dẫn đến quá khớp. DeepSeek đã chọn phương pháp học tăng cường nguyên thủy nhất, thông qua các quy tắc启发式để chấm điểm kết quả cuối cùng, sau đó sử dụng phương pháp học tăng cường truyền thống để hiệu chỉnh quá trình. Phương pháp họ chọn cũng là kết quả của quá trình thử và sai liên tục, điều này nhờ vào cơ sở hạ tầng hiệu quả của DeepSeek.
Ngay cả khi DeepSeek không công khai mã suy luận của họ, các nhóm khác cũng có thể suy ra được họ đã sử dụng những phương pháp nào. Trọng lượng mô hình nguồn mở đã đủ để các nhóm khác tái hiện lại hiệu suất của họ, nhưng khó khăn là làm thế nào để thử nghiệm ra những cấu hình đặc biệt bên trong, điều này cần thời gian.
Chỉ dựa vào dữ liệu gán nhãn để tạo mô hình thưởng, rất khó đạt được khả năng trí tuệ siêu nhân. Cần có một mô hình thưởng dựa trên dữ liệu hoặc phản hồi từ môi trường thực tế, mới có thể thực hiện tối ưu hóa thưởng ở cấp độ cao hơn, từ đó tạo ra khả năng trí tuệ siêu nhân.
Dự đoán về mặt kỹ thuật: Nếu mô hình cơ sở có tính tổng quát khá mạnh, kết hợp với khả năng toán học và lập trình, sự kết hợp của hai phần này sẽ tạo ra khả năng khái quát hóa mạnh hơn. Ví dụ, nếu có một mô hình cơ sở tương đối thông minh, giả sử mô hình này đã khá tốt trong lĩnh vực viết lách, thì kết hợp với một số học tăng cường về toán học và lập trình, nó có thể sẽ thực hiện được khái quát hóa tốt, cuối cùng tạo ra một số khả năng rất mạnh. Biểu hiện cụ thể là nó có thể viết được các tác phẩm từ văn xuôi đến thơ lục bát, trong khi các mô hình khác ở lĩnh vực này lại không quá xuất sắc.

02 Tại sao chi phí của DeepSeek lại thấp đến vậy?

Độ thưa thớt của mô hình rất cao. Mặc dù đây là một mô hình lớn hơn 600B tham số, nhưng khi suy luận, số tham số kích hoạt thực tế cho mỗi token rất nhỏ, chỉ 37B, có nghĩa là tốc độ và mức tiêu thụ tài nguyên khi suy luận tương đương với một mô hình 37B tham số. Nhưng để đạt được điều này, cần phải thiết kế lại toàn bộ hệ thống một cách đáng kể.
Trong DeepSeek V3, kiến trúc MoE bao gồm 256 mô-đun chuyên gia, nhưng chỉ kích hoạt một phần nhỏ trong số đó khi suy luận. Trong trường hợp tải cao, nó có thể điều chỉnh động tỷ lệ sử dụng tài nguyên, lý thuyết có thể nén chi phí xuống 1/256 so với trước. Thiết kế này thể hiện tính tiên phong của DeepSeek trong kiến trúc phần mềm. Nếu tối ưu hóa hệ thống đủ tốt, thì với cùng một quy mô, giá cả có thể giảm đáng kể.
Khi huấn luyện mô hình thường có ba cách tiếp cận song song, tức là chia nhỏ theo ba chiều. Thứ nhất là chia nhỏ dữ liệu, gọi là Data Parallelism. Thứ hai là chia nhỏ mô hình, vì các tầng trong mô hình là độc lập, gọi là Pipeline Parallelism. Thứ ba là chia nhỏ trọng số mô hình, phân bổ cho các GPU khác nhau, gọi là Tensor Parallelism. Để phù hợp với thiết kế mô hình thưa thớt, DeepSeek đã điều chỉnh khung huấn luyện và pipeline một cách đáng kể, trong quá trình huấn luyện loại bỏ Tensor Parallelism, chỉ sử dụng Data Parallelism và Pipeline Parallelism, trên cơ sở đó tiến hành chuyên gia song song (Expert Parallelism) chi tiết hơn. Thông qua việc chia nhỏ số lượng chuyên gia (lên đến 256 chuyên gia), phân bổ các chuyên gia khác nhau cho các GPU khác nhau. Ngoài ra, DeepSeek từ bỏ Tensor Paralleism, có thể vượt qua giới hạn phần cứng, khiến H800 và H100 về hiệu suất huấn luyện gần như ngang nhau.
Về triển khai mô hình, thực nghiệm cho thấy chi phí tính toán có thể kiểm soát, và độ khó kỹ thuật không cao, thường chỉ mất từ một đến hai tuần để hoàn thành tái hiện, điều này rất có lợi cho nhiều nhà phát triển ứng dụng.
Một kiến trúc mô hình có thể: không còn giới hạn reasoning RL trong chính mô hình ngôn ngữ
Dưới đây là bản dịch tiếng Việt của văn bản, với các từ được giữ nguyên như trong nội dung gốc:
Hiện tại, có thể thấy quá trình suy nghĩ được mô hình thể hiện là một thiết kế đáng hài lòng, nhưng nó giống như một công việc khá sớm trong việc sử dụng học tập tăng cường (RL) để nâng cao khả năng của mô hình. Độ dài của quá trình suy luận không phải là tiêu chí duy nhất để đánh giá tính chính xác của kết quả cuối cùng, trong tương lai sẽ chuyển từ quá trình suy luận dài phức tạp sang quá trình suy luận ngắn gọn hơn.

04 AI ứng dụng trong các kịch bản chuyên ngành dễ dàng hơn

Đối với các nhiệm vụ tương đối chuyên ngành (vertical task), đánh giá nhiệm vụ có thể được thực hiện thông qua hệ thống quy tắc (rule system), không cần phụ thuộc vào mô hình thưởng (rewarding model) phức tạp. Trên các nhiệm vụ chuyên ngành đã được thiết lập, các mô hình tương tự như Tiny Zero hoặc 7B có thể nhanh chóng đạt được kết quả có thể sử dụng được.
Trên một nhiệm vụ chuyên ngành đã được thiết lập, việc sử dụng mô hình 70 tỷ tham số hoặc lớn hơn được blending qua DeepSeek có thể nhanh chóng đạt được "aha moment". Về mặt chi phí, trên mô hình 7B để thực hiện các bài toán đơn giản như toán học hoặc Blackjack với câu trả lời rõ ràng, chỉ cần 2-4 card H100 hoặc H200, không quá nửa ngày, mô hình có thể hội tụ đến trạng thái có thể sử dụng được.
Trong lĩnh vực chuyên ngành, đặc biệt là khi xử lý các nhiệm vụ có câu trả lời rõ ràng như tính toán toán học, đánh giá quy tắc vật lý (sắp xếp vật, vận động có tuân thủ quy luật hay không), hiệu quả của DeepSeek R1 thực sự tốt hơn các mô hình khác và chi phí kiểm soát được, do đó có thể áp dụng nó trong nhiều lĩnh vực chuyên ngành. Tuy nhiên, đối với các nhiệm vụ không có câu trả lời rõ ràng, chẳng hạn như đánh giá xem một thứ gì đó có đẹp hay không, hoặc một câu trả lời có làm cho người ta vui hay không, những đánh giá mang tính chủ quan này không thể được giải quyết tốt bằng phương pháp dựa trên quy tắc (rule-based). Có thể cần phải đợi ba tháng, nửa năm, cho đến khi có phương pháp tốt hơn để giải quyết những vấn đề này.
Khi sử dụng fine-tuning có giám sát (SFT) hoặc các phương pháp tương tự, rất khó để giải quyết vấn đề tìm kiếm tập dữ liệu tốn thời gian, và phân bố miền (domain distribution) của những tập dữ liệu này thường khó có thể bao quát toàn diện tất cả các cấp độ của nhiệm vụ. Bây giờ có một công cụ mới, tốt hơn, kết hợp với một mô hình chất lượng cao, có thể giải quyết những khó khăn trong việc thu thập dữ liệu trước đây và các nhiệm vụ chuyên ngành có câu trả lời rõ ràng.
Chỉ dựa trên hệ thống quy tắc (rule-based), mặc dù toán học và mã nguồn có thể định nghĩa ra các quy tắc khá rõ ràng, nhưng nếu phải đối phó với các nhiệm vụ phức tạp hơn hoặc mở rộng hơn, việc phụ thuộc vào hệ thống quy tắc sẽ trở nên rất khó khăn. Do đó, mọi người cuối cùng có thể sẽ khám phá ra các mô hình phù hợp hơn để đánh giá kết quả của những tình huống phức tạp này. Có thể sẽ sử dụng phương pháp ORM (kết quả định hướng) thay vì PRM (quá trình định hướng), hoặc khám phá các phương pháp tương tự khác. Cuối cùng, có thể sẽ xây dựng một trình mô phỏng giống "mô hình thế giới", để cung cấp phản hồi tốt hơn cho các quyết định của các mô hình khác nhau.
Khi huấn luyện khả năng suy luận bằng các mô hình nhỏ, thậm chí không cần phụ thuộc vào các giải pháp dựa trên Token. Trong một giải pháp hướng đến lĩnh vực thương mại điện tử, có thể trực tiếp tách khả năng suy luận ra khỏi mô hình dựa trên Transformer, sử dụng một mô hình nhỏ khác để hoàn thành toàn bộ công việc suy luận, kết hợp với Transformer để thực hiện toàn bộ nhiệm vụ.
Đối với những công ty phát triển mô hình để sử dụng cho chính mình (như quỹ phòng hộ), thách thức là vấn đề chi phí. Các công ty lớn có thể phân tán chi phí bằng cách thu hút khách hàng, nhưng các nhóm hoặc công ty nhỏ khó có thể chịu được chi phí nghiên cứu và phát triển đắt đỏ. Việc DeepSeek trở nên nguồn mở có ý nghĩa rất lớn đối với họ, tương đương với việc các nhóm trước đây không thể chịu được chi phí nghiên cứu và phát triển cao nay cũng có thể xây dựng các mô hình.
Trong lĩnh vực tài chính, đặc biệt là các quỹ định lượng, thường cần phải phân tích một lượng lớn dữ liệu tài chính, chẳng hạn như báo cáo tài chính của công ty và dữ liệu Bloomberg, v.v. Những công ty này thường xây dựng bộ dữ liệu riêng của mình và tiến hành huấn luyện có giám sát (supervised training), nhưng chi phí gán nhãn dữ liệu rất cao. Đối với những công ty này, việc ứng dụng học tập tăng cường (RL) trong giai đoạn fine-tuning có thể cải thiện đáng kể hiệu suất của mô hình, đạt được bước nhảy vọt về chất lượng.

05 Chip nội địa hy vọng giải quyết vấn đề tính toán suy luận

Hiện nay trong nước có khá nhiều chip đối sánh với A100, A800, nhưng điểm nghẽn lớn nhất của chip nội địa không phải ở thiết kế chip mà ở việc chạy thử. DeepSeek đã thích ứng với Huawei cũng là vì Huawei tương đối ổn định về việc chạy thử, và có thể đảm bảo ổn định trong bối cảnh các lệnh trừng phạt nghiêm ngặt hơn sau này.
Nvidia phát triển về sau, xét từ góc độ huấn luyện trên một card, những chip cao cấp này trong một số trường hợp ứng dụng có thể bị thừa sức tính toán. Ví dụ, sức mạnh tính toán trên một card có thể do các giới hạn về bộ nhớ và cache bổ sung không thể phát huy tối đa trong giai đoạn huấn luyện.
Trên thị trường chip trong nước, nếu hoàn toàn tập trung vào ứng dụng AI, không cần tính toán khoa học, sẽ giảm đáng kể khả năng tính toán điểm nổi, chỉ tập trung vào các nhiệm vụ AI, có thể theo kịp một số chỉ số hiệu năng của chip cờ đầu của Nvidia.

06 Agent mạnh mẽ hơn và khả năng gọi chéo ứng dụng

Đối với nhiều lĩnh vực chuyên ngành, khả năng của agent sẽ được cải thiện đáng kể. Có thể đầu tiên lấy ra một mô hình cơ bản, chuyển một số quy tắc thành mô hình quy tắc (rule model), mô hình quy tắc này có thể là một giải pháp kỹ thuật thuần túy (pure engineering solution). Sau đó, có thể sử dụng giải pháp kỹ thuật này để cho phép mô hình cơ bản lặp lại (iteration) và huấn luyện (training) trên đó. Bạn có thể nhận được một kết quả, kết quả này đã xuất hiện một số khả năng siêu trí tuệ con người (super human intelligence). Trên cơ sở này, tiến hành một số điều chỉnh về sở thích (preference tuning), để câu trả lời của nó phù hợp hơn với thói quen đọc của con người, như vậy bạn có thể nhận được một agent suy luận mạnh mẽ hơn trong một lĩnh vực chuyên ngành cụ thể;
Điều này có thể sẽ dẫn đến một vấn đề, bạn có thể không thể có được một agent có khả năng tổng quát rất mạnh trong tất cả các lĩnh vực chuyên ngành. Sau khi huấn luyện một agent cho một lĩnh vực cụ thể, nó chỉ có thể hoạt động trong lĩnh vực đó, không thể tổng quát hóa sang các lĩnh vực chuyên ngành khác. Nhưng đây có thể là một hướng đi (ứng dụng) khả thi, bởi vì chi phí suy luận (inference cost) của DeepSeek rất thấp, có thể chọn một mô hình, sau đó tiến hành một loạt các huấn luyện tăng cường, sau khi huấn luyện xong, nó chỉ phục vụ cho một lĩnh vực chuyên ngành cụ thể, không quan tâm đến các lĩnh vực chuyên ngành khác. Đối với các công ty AI chuyên ngành, đây là một giải pháp có thể chấp nhận được.
Từ góc độ học thuật, một xu hướng quan trọng trong một năm tới là một số phương pháp hiện có trong học tập tăng cường sẽ được chuyển sang ứng dụng mô hình lớn, để giải quyết vấn đề tổng quát hóa không đủ hoặc đánh giá không chính xác hiện nay. Thông qua cách này, có thể tiếp tục nâng cao hiệu suất và khả năng tổng quát hóa của mô hình. Với sự ứng dụng của học tập tăng cường, khả năng đầu ra thông tin có cấu trúc sẽ được cải thiện đáng kể, cuối cùng có thể hỗ trợ tốt hơn cho các kịch bản ứng dụng, đặc biệt là cải thiện hiệu quả tạo ra biểu đồ và nội dung cấu trúc khác.
Ngày càng nhiều người có thể sử dụng R1 để post training, mỗi người đều có thể tạo ra agent riêng của mình. Lớp mô hình sẽ trở thành các agent model khác nhau, sử dụng các công cụ khác nhau để giải quyết các vấn đề trong các lĩnh vực khác nhau, cuối cùng thực hiện multi agent system.
Năm 2025 có thể trở thành năm của agent, nhiều công ty sẽ ra mắt các agent có khả năng lập kế hoạch nhiệm vụ. Tuy nhiên, hiện nay vẫn thiếu dữ liệu đủ để

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan