Mô hình mới của DeepSeek lộ diện, vì sao có thể gây chấn động giới AI toàn cầu?

01-26

Bài viết này được dịch máy

Xem bản gốc

Sau đây là bản dịch tiếng Việt:

Phương pháp học tăng cường thuần túy đã giúp DeepSeek-R1 đạt được hiệu suất tương đương với các mô hình hàng đầu như GPT-4o và Claude Sonnet 3.5.

Tác giả khách mời của Tạp chí "Hướng đi tương lai của AI" của Tencent: Hạo Bá Dương

Chưa đầy một tháng, DeepSeek lại một lần nữa gây chấn động trong giới AI toàn cầu.

Vào tháng 12 năm ngoái, mô hình DeepSeek-V3 do DeepSeek phát triển đã gây ra một làn sóng lớn trong lĩnh vực AI toàn cầu, với chi phí đào tạo cực thấp nhưng vẫn đạt được hiệu suất tương đương với các mô hình hàng đầu như GPT-4o và Claude Sonnet 3.5, khiến giới chuyên gia kinh ngạc. Tencent Technology đã tiến hành phân tích sâu về mô hình này, giải thích bằng cách đơn giản và trực tiếp nhất về nền tảng kỹ thuật cho phép nó đạt được hiệu suất cao với chi phí thấp.

Khác với lần trước, mô hình mới DeepSeek-R1 không chỉ có chi phí thấp mà còn có bước tiến lớn về mặt kỹ thuật, và nó còn là một mô hình mã nguồn mở.

Mô hình mới này vẫn giữ được lợi thế về chi phí hiệu quả, chỉ với một phần mười chi phí đã đạt được mức hiệu suất tương đương với GPT-o1.

Do đó, nhiều người trong ngành thậm chí đã hô hào "DeepSeek sẽ kế thừa OpenAI", và nhiều người khác đang tập trung vào những bước đột phá trong phương pháp đào tạo của nó.

Ví dụ, Elvis, một cựu nhân viên của Meta AI và tác giả nổi tiếng về các bài báo AI trên Twitter, nhấn mạnh rằng bài báo về DeepSeek-R1 này là một báu vật, vì nó khám phá ra nhiều phương pháp để nâng cao khả năng suy luận của các mô hình ngôn ngữ lớn và phát hiện ra những đặc tính nổi bật hơn của chúng.

Một nhân vật nổi tiếng khác trong giới AI, Yuchen Jin, cho rằng việc DeepSeek-R1 sử dụng phương pháp học tăng cường thuần túy để hướng dẫn mô hình tự học và suy luận phản tỉnh là một phát hiện rất quan trọng.

Jim Fan, người phụ trách dự án GEAR Lab của Nvidia, cũng đề cập trên Twitter rằng DeepSeek-R1 sử dụng phần thưởng thực tế được tính toán bằng cách mã hóa cứng, thay vì sử dụng bất kỳ mô hình phần thưởng học tăng cường dễ bị phá vỡ nào. Điều này khiến mô hình xuất hiện hành vi tự phản tỉnh và khám phá.

Vậy thì, phương pháp học tăng cường thuần túy mà họ đề cập là gì? Và làm thế nào mà những "Aha moment" của mô hình có thể chứng minh AI có khả năng nổi bật? Chúng ta muốn biết những đổi mới quan trọng này của DeepSeek-R1 có ý nghĩa gì đối với sự phát triển tương lai của lĩnh vực AI.

Sử dụng công thức đơn giản nhất, quay lại với học tăng cường thuần túy

Sau khi o1 ra mắt, việc tăng cường khả năng suy luận đã trở thành một trong những phương pháp được quan tâm nhất trong ngành.

Thông thường, một mô hình trong quá trình đào tạo sẽ thử một phương pháp đào tạo cố định để nâng cao khả năng suy luận.

Nhưng trong quá trình đào tạo R1, nhóm DeepSeek đã trực tiếp thử nghiệm ba hướng tiếp cận hoàn toàn khác nhau: đào tạo học tăng cường trực tiếp (R1-Zero), đào tạo theo nhiều giai đoạn tiệm tiến (R1) và chưng cất mô hình, và tất cả đều thành công. Phương pháp đào tạo theo nhiều giai đoạn tiệm tiến và chưng cất mô hình đều chứa nhiều yếu tố sáng tạo có ảnh hưởng quan trọng đến ngành.

Điều khiến mọi người phấn khích nhất là hướng tiếp cận học tăng cường trực tiếp này. Bởi vì DeepSeek-R1 là mô hình đầu tiên chứng minh được phương pháp này hiệu quả.

Trước đây, phương pháp truyền thống để tập luyện khả năng suy luận của AI thường là: thông qua việc bổ sung nhiều ví dụ về chuỗi suy nghĩ (COT) vào SFT (tinh chỉnh giám sát), sử dụng các mô hình phần thưởng phức tạp như mô hình phần thưởng quá trình (PRM) để giúp mô hình học cách suy nghĩ theo chuỗi suy nghĩ.

Thậm chí còn có thể thêm vào tìm kiếm cây Monte Carlo (MCTS) để giúp mô hình tìm kiếm phương án tốt nhất trong nhiều khả năng.

(Lộ trình đào tạo mô hình truyền thống)

Nhưng DeepSeek-R1 Zero lại chọn một con đường chưa từng có tiền lệ - "học tăng cường thuần túy". Nó hoàn toàn bỏ qua các mẫu chuỗi suy nghĩ (Chain of Thought) được thiết lập trước và tinh chỉnh giám sát (SFT), chỉ dựa vào tín hiệu thưởng phạt đơn giản để tối ưu hóa hành vi của mô hình.

Điều này giống như để một đứa trẻ thiên tài học giải bài toán mà không có bất kỳ ví dụ hay hướng dẫn nào, chỉ thông qua liên tục thử nghiệm và nhận phản hồi.

DeepSeek-R1 Zero chỉ có một hệ thống thưởng phạt đơn giản để kích hoạt khả năng suy luận của AI.

Quy tắc chỉ có hai điều:

1. Thưởng chính xác: Thưởng mô hình khi đánh giá phản hồi là chính xác. Trả lời đúng thì được thưởng, trả lời sai thì bị phạt. Phương pháp đánh giá cũng rất đơn giản: ví dụ, với các bài toán toán học có kết quả xác định, mô hình cần cung cấp câu trả lời cuối cùng trong định dạng được chỉ định (như giữa <answer> và </answer>); đối với các bài toán lập trình, có thể sử dụng trình biên dịch để tạo phản hồi dựa trên các trường hợp kiểm tra được xác định trước.

2. Thưởng định dạng: Thưởng mô hình khi buộc phải đặt quá trình suy nghĩ của nó trong các thẻ <think> và </think>. Không làm như vậy sẽ bị phạt, làm như vậy sẽ được thưởng.

Để quan sát chính xác sự tiến bộ tự nhiên của mô hình trong quá trình học tăng cường (RL), DeepSeek thậm chí cố ý hạn chế các lời nhắc của hệ thống chỉ trong định dạng cấu trúc này, để tránh bất kỳ thiên kiến nội dung cụ thể nào - ví dụ như buộc mô hình phải thực hiện suy luận phản tỉnh hoặc áp dụng các chiến lược giải quyết vấn đề cụ thể.

(Lời nhắc hệ thống của R1 Zero)

Chỉ với một quy tắc đơn giản như vậy, AI có thể tự lấy mẫu + so sánh, tự nâng cao theo quy tắc GRPO (Tối ưu hóa Chính sách Tương đối Nhóm).

Cơ chế GRPO khá đơn giản, tính toán gradient chính sách dựa trên so sánh tương đối giữa các mẫu trong nhóm, hiệu quả giảm tính không ổn định trong quá trình đào tạo và tăng tốc độ học tập.

Nói một cách đơn giản, bạn có thể tưởng tượng nó như thể giáo viên đưa ra một bài tập, và mô hình phải trả lời nhiều lần, sau đó sử dụng quy tắc thưởng phạt ở trên để chấm điểm, dựa trên logic theo đuổi điểm cao, tránh điểm thấp để cập nhật mô hình.

Quy trình này sẽ như sau:

Nhập vào câu hỏi → Mô hình tạo ra nhiều câu trả lời → Hệ thống quy tắc chấm điểm → GRPO tính ưu thế tương đối → Cập nhật mô hình.

Phương pháp đào tạo trực tiếp này mang lại một số lợi ích đáng kể. Trước tiên là tăng hiệu quả đào tạo, có thể hoàn thành trong thời gian ngắn hơn. Thứ hai là giảm mức tiêu thụ tài nguyên, vì không cần SFT và các mô hình thưởng phạt phức tạp, nên nhu cầu về tài nguyên tính toán giảm đáng kể.

Quan trọng hơn, phương pháp này thực sự giúp mô hình học cách suy nghĩ, và đó là theo cách "ngộ ra".

Học tập bằng ngôn ngữ của chính mình, trong những "ngộ ra"

Chúng ta làm thế nào để nhận ra rằng mô hình thực sự đã "suy nghĩ" dưới phương pháp "nguyên thủy" này?

Bài báo ghi lại một trường hợp đáng chú ý: khi xử lý một bài toán liên quan đến biểu thức toán học phức tạp √a - √(a + x) = x, mô hình đột nhiên dừng lại và nói "Đợi đã, đợi đã. Đây là một khoảnh khắc "aha" đáng để ghi lại". Sau đó, nó lại xem xét lại toàn bộ quá trình giải quyết vấn đề. Hành vi tương tự như sự ngộ ra của con người hoàn toàn tự phát, chứ không phải được thiết lập trước.

Những khoảnh khắc ngộ ra này thường là thời điểm năng lực tư duy của mô hình nhảy vọt.

Bởi vì theo nghiên cứu của DeepSeek, sự tiến bộ của mô hình không phải là tiệm tiến đều đặn. Trong quá trình học tăng cường, độ dài phản hồi sẽ có những bước tăng đột ngột, và những "điểm nhảy vọt" này thường đi kèm với sự thay đổi về chiến lược giải quyết vấn đề. Mô hình này giống như sự ngộ ra đột ngột của con người sau một thời gian suy ngh

Dưới đây là bản dịch tiếng Việt của văn bản, với các từ viết tắt được dịch như sau: 'TPS' được dịch thành 'Số lượng giao dịch trên mỗi giây'. 'ATH' được dịch thành 'Cao nhất mọi thời đại'. 'AR' được dịch thành 'Thực tế tăng cường (AR)'. 'chain' được dịch thành 'chuỗi'. 'ADA' được dịch thành 'ADA'. 'HT' được dịch thành 'HT'. 'GT' được dịch thành 'GT'. 'OP' được dịch thành 'OP'. 'AR' được dịch thành 'AR'. '链' được dịch thành 'Chuỗi'. '标记' được dịch thành 'đánh dấu'. '增长' được dịch thành 'tăng trưởng'. '大量' được dịch thành 'lượng lớn'. '背景' được dịch thành 'bối cảnh'. '数据' được dịch thành 'dữ liệu'. '团队' được dịch thành 'đội ngũ'. '面对' được dịch thành 'đối diện'. '方法' được dịch thành 'phương pháp'. '屡试不爽' được dịch thành 'lần nào cũng đúng'. '认为' được dịch thành 'cho rằng'. '深度' được dịch thành 'độ sâu'. '次' được dịch thành 'lần'. '任务' được dịch thành 'nhiệm vụ'. '参考' được dịch thành 'tham khảo'. '其中' được dịch thành 'trong đó'. '知名' được dịch thành 'có tiếng'. '角色' được dịch thành 'nhân vật'. '评估' được dịch thành 'đánh giá'. '开源' được dịch thành 'mã nguồn mở'. 'Ink' được dịch thành 'Ink'.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan