Thuật toán PPO kinh điển: từng bị NeurIPS bác bỏ.

Bài viết này được dịch máy

Xem bản gốc

Bị từ chối không có nghĩa là thất bại.

Tác giả và nguồn bài viết: Machine Heart

Điều đó thật đáng ngạc nhiên.

PPO (Proximal Policy Optimization) , một thuật toán kinh điển sau này được sử dụng rộng rãi trong RLHF và huấn luyện mô hình quy mô lớn, đã bị NIPS 2017 bác bỏ.

Vấn đề này gần đây đã được John Schulman, tác giả của PPO, nêu lên. Ông tóm tắt câu chuyện chỉ trong một câu: PPO đã bị NIPS 2017 từ chối.

Bài báo này, được xuất bản lần đầu vào tháng 7 năm 2017, ban đầu có vẻ là một thuật toán tối ưu hóa chính sách đơn giản hơn, thân thiện hơn với kỹ sư. Mục tiêu của nó là giảm độ phức tạp trong việc triển khai trong khi vẫn duy trì tính ổn định của TRPO, giúp việc huấn luyện học tăng cường trở nên nhạy bén và thiết thực hơn.

Nhưng vài năm sau, điều thực sự đưa PPO lên một tầm cao mới không phải là nhiệm vụ học tăng cường truyền thống như Atari và điều khiển robot, mà là các mô hình ngôn ngữ quy mô lớn.

Từ RLHF đến RLVR ngày nay, PPO đã trở thành một trong những thuật toán cơ bản không thể bỏ qua trong quá trình huấn luyện các mô hình lớn. Theo Schulman, PPO đã mở ra làn sóng phổ biến thứ hai trong kỷ nguyên LLM, vì những lý do thậm chí còn vượt quá mong đợi của bài báo gốc.

Điều này dường như không phải là Schulman phàn nàn về việc bị từ chối hồi đó, mà giống như một sự suy ngẫm sau này: tác động thực sự của một công nghệ thường diễn ra theo những cách mà người phát minh ban đầu không lường trước được.

Khi thấy điều này, nhiều người sẽ tự hỏi: Tại sao PPO lại bị từ chối vào thời điểm đó?

Sau đó, Schulman giải thích rằng vào thời điểm đó, bài báo được cho rằng là có tính đột phá hạn chế, và sự cải tiến của nó so với phương pháp cơ bản hiện có là không đủ đáng kể.

Một cư dân mạng bình luận: "Điều này thực sự phản ánh sự không phù hợp giữa đánh giá học thuật và nhu cầu thực tế của ngành công nghiệp. Cộng đồng học thuật thường coi trọng tính mới lạ và sự cải tiến so với phương pháp cơ bản trong hoàn cảnh thí nghiệm quy mô nhỏ, được kiểm soát; trong khi thế giới thực quan tâm nhiều hơn đến việc liệu phương pháp có thể được mở rộng quy mô lớn hơn hay không, liệu nó có thể duy trì tính ổn định trong các hệ thống phức tạp hay không, và liệu nó có thực sự hoạt động được hay không."

Schulman cũng tỏ ra khá bình tĩnh về điều đó. Ông nói rằng đó là chuyện đã lâu rồi, và ông hy vọng rằng qua nhiều năm, cộng đồng học thuật đã dần dần hiểu và tiếp thu được gu thẩm mỹ "đơn giản nhưng có thể mở rộng" này.

Điều thực sự khiến ông ngạc nhiên là bài báo về PPO và hàm mục tiêu trong đó lại có thể tạo ra tác động lâu dài đến vậy. Việc một thay đổi thuật toán chỉ là một điều chỉnh nhỏ sẽ nhanh chóng bị lãng quên và thay thế, hay liệu nó sẽ tồn tại trong hệ thống lâu dài và trở thành một thành phần cơ bản khó vượt qua, thường rất khó xác định ngay từ đầu.

Câu chuyện về PPO minh họa hoàn hảo điểm này.

Thực tế, không chỉ có PPO. Nhiều công trình trong lịch sử trí tuệ nhân tạo, sau này chứng minh được tầm ảnh hưởng sâu rộng, đã bị các hội nghị hàng đầu từ chối khi mới được đệ trình.

LSTM : Công nghệ này đã bị NIPS từ chối vào năm 1996 vì bị cho rằng quá phức tạp và thiếu cơ sở sinh học. Tuy nhiên, sau đó nó đã trở thành công nghệ cốt lõi cho nhiệm vụ mô hình hóa chuỗi như nhận dạng giọng nói và dịch máy.

SIFT đã bị ICCV 1997 và CVPR 1998 bác bỏ do quy trình kỹ thuật rườm rà và thiếu tinh tế. Tuy nhiên, sau đó nó đã thống trị lĩnh vực thị giác máy tính trong hơn một thập kỷ trước khi kỷ nguyên học độ sâu đầu.

Dropout : Bị NIPS từ chối vào năm 2012 do cho rằng mang tính chất "mánh khóe kỹ thuật" và thiếu tính chặt chẽ về mặt lý thuyết, sau này nó đã trở thành một trong phương pháp điều chỉnh quan trọng nhất cho mạng nơ-ron độ sâu và giành được giải thưởng NeurIPS Time Test Award.

Đôi khi, thời gian là người phán xét nghiêm khắc và công bằng nhất.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan