DeepSeek đã công bố một bài báo mới và Altman ngay lập tức theo dõi: GPT-5 chỉ còn cách vài tháng nữa

avatar
36kr
04-07
Bài viết này được dịch máy
Xem bản gốc

Hơi thú vị.

Mới đây DeepSeek vừa đăng một bài báo về Scaling Law trong quá trình suy luận, khiến mọi người đoán liệu R2 có sắp ra mắt không.

Nhưng mà... Altman lại đưa ra một thông điệp "thay đổi kế hoạch":

Kế hoạch thay đổi: Chúng tôi có thể sẽ phát hành o3 và o4-mini trong vài tuần tới.

Còn về GPT-5 mà mọi người đang mong chờ, Altman cho biết:

Sẽ ra mắt sau vài tháng nữa, và hiệu quả sẽ tốt hơn so với những gì chúng tôi ban đầu dự kiến.

Về lý do, Altman cũng đã giải thích.

Về cơ bản là việc tích hợp thuận lợi tất cả các nội dung khó khăn hơn nhiều so với họ tưởng tượng, hy vọng đảm bảo đủ năng lực để đáp ứng nhu cầu dự kiến.

Nói chung, bây giờ DeepSeek vừa có chút động tĩnh là OpenAI lại phải có động thái để bắt kịp.

Bài báo mới của DeepSeek

Sau sự cố nhỏ này, chúng ta vẫn tập trung vào bài báo mới của DeepSeek.

Tên bài báo là Inference-Time Scaling for Generalist Reward Modeling, do DeepSeek và Đại học Thanh Hoa cùng đề xuất.

Điểm nổi bật cốt lõi của nghiên cứu này là đưa ra một phương pháp gọi là SPCT (Self-Principled Critique Tuning) -

Lần đầu tiên đề xuất tối ưu hóa các nguyên tắc và tạo ra phê bình thông qua học tăng cường trực tuyến (RL), để thực hiện việc mở rộng trong quá trình suy luận.

Lý do thực hiện nghiên cứu này là do trước đây mọi người sử dụng mô hình phần thưởng (Reward Model, RM) trong RL để tạo ra tín hiệu phần thưởng cho các mô hình ngôn ngữ lớn.

Nhưng các RM hiện có lại có hạn chế trong lĩnh vực chung, đặc biệt là khi đối mặt với các nhiệm vụ phức tạp và đa dạng.

Do đó, đã xuất hiện hai điểm thách thức chính.

Một là RM chung cần tính linh hoạt (hỗ trợ chấm điểm phản hồi đơn, đa phản hồi) và độ chính xác (phần thưởng chất lượng cao trên các lĩnh vực).

Thứ hai là các RM hiện có (như RM vô hướng, RM bán vô hướng) có khả năng mở rộng kém trong quá trình suy luận, không thể cải thiện đáng kể hiệu suất bằng cách tăng tài nguyên tính toán.

Để giải quyết vấn đề này, nhóm DeepSeek và Đại học Thanh Hoa đã đề xuất SPCT.

Nhìn chung, nghiên cứu này bao gồm ba điểm kỹ thuật chính.

Đầu tiên là Mô hình phần thưởng sinh (GRM).

Nó sử dụng mô hình phần thưởng sinh điểm (Pointwise GRM), tạo ra phần thưởng dưới dạng văn bản (như phê bình) thay vì giá trị vô hướng đơn, hỗ trợ đầu vào linh hoạt (phản hồi đơn, đa phản hồi) và mở rộng trong quá trình suy luận.

Trong đó, C là phê bình được tạo ra, fextract trích xuất điểm số từ đó.

Tiếp theo là SPCT quan trọng.

Chủ yếu là đào tạo GRM thông qua học tăng cường trực tuyến (RL), cho phép nó động tĩnh tạo ra các nguyên tắc và phê bình chất lượng cao, từ đó nâng cao chất lượng phần thưởng.

Nhìn chung, SPCT là một quá trình hai giai đoạn, bao gồm:

  • Tinh chỉnh từ chối (Rejective Fine-Tuning)

: Giai đoạn khởi động lạnh, tạo dữ liệu ban đầu thông qua chiến lược lấy mẫu và từ chối.

  • RL trực tuyến dựa trên quy tắc

: Sử dụng hàm phần thưởng quy tắc hóa để tối ưu hóa việc tạo ra các nguyên tắc và phê bình, khuyến khích mô hình phân biệt phản hồi tốt nhất.

Trên cơ sở đó, là điểm kỹ thuật thứ ba, tức kỹ thuật mở rộng trong quá trình suy luận.

Đầu tiên là tạo ra các nguyên tắc và phê bình đa dạng thông qua nhiều lần lấy mẫu, bỏ phiếu tổng hợp phần thưởng cuối cùng, mở rộng không gian phần thưởng.

Sau đó đào tạo một mô hình phụ để lọc các mẫu chất lượng thấp, từ đó cải thiện thêm hiệu quả mở rộng.

Dựa trên các phương pháp trên, nhóm nghiên cứu cũng đã tiến hành kiểm tra kết quả.

Trên các tiêu chuẩn Reward Bench, PPE, RMB, v.v., DeepSeek-GRM-27B vượt trội hơn đáng kể so với các phương pháp cơ sở (như LLM-as-a-Judge, RM vô hướng), và thông qua việc mở rộng trong quá trình suy luận (32 lần lấy mẫu) hiệu suất còn được cải thiện hơn nữa (như độ chính xác Reward Bench tăng từ 86,0% lên 90,4%).

Tóm lại, nghiên cứu này chứng minh tính hiệu quả của việc mở rộng trong quá trình suy luận đối với RM chung, vượt trội hơn việc mở rộng trong quá trình đào tạo.

Một điều nữa

Ngoài thông điệp "thay đổi kế hoạch", Altman còn không quên quảng bá cho mình, cho biết có hai cuốn sách mà ông trực tiếp tham gia sắp được phát hành:

    Một cuốn do Keach Hagey viết về bản thân Altman
  • Một cuốn do Ashlee Vance viết về OpenAI

Địa chỉ bài báo:

https://arxiv.org/abs/2504.02495

Các liên kết tham khảo:

[1]https://x.com/sama/status/1908167621624856998

[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/

[3]https://x.com/sama/status/1908163013192069460

Bài viết này đến từ trang WeChat "Quantum Bit" (ID: QbitAI), tác giả: Kim Lôi, được 36Kr ủy quyền đăng tải.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
Bình luận