고전적인 PPO 알고리즘: NeurIPS에서 한때 거부되었던 방식입니다.

ME News

이 기사는 기계로 번역되었습니다

원문 표시

거절당했다고 해서 실패한 것은 아닙니다.

기사 작성자 및 출처: Machine Heart

정말 놀랍네요.

PPO(근접 정책 최적화) 는 이후 RLHF 및 대규모 모델 학습에 널리 사용된 고전적인 알고리즘이지만, NIPS 2017에서 채택이 거부되었습니다.

이 문제는 최근 PPO의 저자인 존 슐먼에 의해 제기되었습니다. 그는 이 사건을 단 한 문장으로 요약했습니다. "PPO는 2017년 NIPS에서 거부되었습니다."

2017년 7월에 처음 발표된 이 논문은 처음에는 더 간단하고 엔지니어링 친화적인 정책 최적화 알고리즘으로 보였습니다. 이 알고리즘의 목표는 TRPO 안정성을 유지하면서 구현 복잡성을 줄여 강화 학습 훈련을 더욱 반응적이고 실용적으로 만드는 것이었습니다.

하지만 몇 년 후, PPO를 더 큰 무대로 끌어올린 것은 아타리나 로봇 제어와 같은 전통적인 강화 학습 작업이 아니라 대규모 언어 모델이었습니다.

RLHF부터 오늘날의 RLVR에 이르기까지, PPO는 대규모 모델 학습에서 빼놓을 수 없는 핵심 알고리즘 중 하나가 되었습니다. 슐만(Schulman)에 따르면, PPO는 LLM 시대에 두 번째 인기 물결을 일으켰는데, 그 이유는 최초 논문의 예상을 뛰어넘는 것이었습니다.

이는 슐만이 당시 거절당한 것에 대해 불평하는 것처럼 보이지 않고, 오히려 사후에 한 성찰처럼 보인다. 기술의 진정한 영향은 발명가가 처음에는 예상하지 못했던 방식으로 나타나는 경우가 많다는 것이다.

이를 보면 많은 사람들이 자연스럽게 궁금해할 것입니다. 왜 그때 PPO가 거절되었을까요?

슐만은 나중에 그 논문이 당시에는 혁신성이 제한적이었고 기존 기준 방법보다 개선된 점이 충분히 크지 않다고 여겨졌다고 설명했다.

한 네티즌은 "이는 실제로 학계의 평가와 실제 산업계의 요구 사이의 불일치를 반영하는 것입니다. 학계는 소규모의 통제된 실험 환경에서 기존 방식 대비 참신성과 개선점을 중시하는 경향이 있지만, 실제 산업계는 해당 방법이 더 큰 규모로 확장될 수 있는지, 복잡한 시스템에서 안정적으로 작동할 수 있는지, 그리고 실제로 실행 가능한지를 더 중요하게 여깁니다."라고 댓글을 달았습니다.

슐만 역시 그 문제에 대해 상당히 침착한 모습을 보였다. 그는 그것은 오래전 일이며, 시간이 흐르면서 학계가 이러한 "단순하지만 확장 가능한" 미학을 점차 이해하고 받아들였기를 바란다고 말했다.

그를 진정으로 놀라게 한 것은 PPO 논문과 그 목적 함수가 그토록 지속적인 영향을 미칠 수 있다는 점이었다. 알고리즘 변경이 금방 잊히고 대체될 사소한 수정에 불과할지, 아니면 오랫동안 시스템에 남아 대체하기 어려운 핵심 요소가 될지는 처음부터 예측하기 어려운 경우가 많다.

PPO의 사례는 이 점을 완벽하게 보여줍니다.

사실, PPO뿐만이 아닙니다. 인공지능 역사상 나중에 지대한 영향을 미친 것으로 입증된 많은 연구들이 처음 제출되었을 때는 최고 학회에서 거절당했습니다.

LSTM : 1996년 NIPS에서 너무 복잡하고 생물학적 근거가 부족하다는 이유로 거부당했습니다. 그러나 이후 음성 인식 및 기계 번역과 같은 시퀀스 모델링 작업의 핵심 기술이 되었습니다.

SIFT는 복잡하고 비효율적인 엔지니어링 프로세스로 인해 1997년 ICCV와 1998년 CVPR에서 거부당했습니다. 그러나 이후 딥러닝 시대가 도래하기 전까지 10년 이상 컴퓨터 비전 분야를 지배했습니다.

Dropout은 2012년 NIPS에서 공학적 편법적 성격과 불충분한 이론적 엄밀성으로 인해 거부되었지만, 이후 심층 신경망을 위한 가장 중요한 정규화 방법 중 하나가 되었고 NeurIPS 시간 테스트 상을 수상했습니다.

때로는 시간이 가장 엄격하면서도 공정한 심판자가 될 수 있다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트