2024년 튜링상은 강화학습의 창시자 두 명에게 수여되었고, ChatGPT와 DeepSeek의 영웅들이 뒤늦게 수상의 영광을 안았습니다.

avatar
36氪
03-06
이 기사는 기계로 번역되었습니다
원문 표시
다음과 같이 번역합니다:

강화 학습의 아버지 Richard Sutton과 그의 지도교수 Andrew Barto가 2024년 튜링상을 수상했습니다. 어떤 이들은 튜링상이 마침내 강화 학습에 수여되었다고 말하며, 이는 지연된 '보상'이라고 합니다.

2024년 튜링상이 강화 학습의 아버지에게 수여되었습니다!

방금 전, ACM(Association for Computing Machinery)은 Andrew G. Barto와 Richard S. Sutton이 2024년 ACM 튜링상 수상자라고 발표했습니다. 이는 그들이 강화 학습의 개념과 알고리즘 기반을 마련했기 때문입니다.

노벨상에 이어 AI 학자들이 다시 한 번 튜링상을 수상했습니다.

'강화 학습의 아버지' Richard S. Sutton과 그의 지도교수 Andrew G. Barto는 강화 학습 발전에 기초적인 공헌을 했습니다.

1980년대부터 이어진 일련의 논문에서 두 사람은 강화 학습의 핵심 개념을 도입하고, 수학적 기반을 구축했으며, 강화 학습의 핵심 알고리즘을 개발했습니다. 이는 지능형 시스템 구축에 가장 중요한 방법 중 하나입니다.

1998년 Sutton과 Barto는 공동으로 '강화 학습 입문(Reinforcement Learning: An Introduction)'을 집필했습니다. 이 책은 현재까지도 이 분야의 기초 저작으로 여겨지고 있으며, 75,000회 이상 인용되었습니다.

현재 Barto는 매사추세츠 대학교 암허스트 캠퍼스 정보 및 컴퓨터 과학과의 명예 교수입니다.

Sutton은 알버타 대학교 컴퓨터 과학 교수이자 Keen Technologies의 수석 연구원, 그리고 알버타 기계 지능 연구소(Amii)의 특별 연구원입니다.

ACM A.M. 튜링상은 '컴퓨터 분야의 노벨상'으로 불리며, 100만 달러의 상금이 제공됩니다. 이 상은 컴퓨터 과학의 수학적 이론 기반을 마련한 영국 수학자 앨런 튜링(Alan M. Turing)의 이름을 따서 명명되었습니다.

올해 튜링상 수상 소식을 듣고 Sutton은 매우 놀랐다고 합니다.

최근 Sutton은 튜링의 명언을 인용한 글을 발표했습니다.

RL의 아버지와 그의 지도교수

AI 업계는 항상 기계의 지식 용량을 최대화하는 데 힘써왔습니다. 이 업계에 몸담고 있는 Richard Sutton은 오랫동안 더 근본적인 문제, 즉 기계가 어떻게 학습하는지에 대해 고민해왔습니다.

'강화 학습: 입문'의 출판 이후, 이 강화 학습 분야의 '성경'은 수십 년이 지난 지금도 여전히 중요한 의미를 가지고 있습니다. 이러한 아이디어는 본질적으로 단순해 보이지만, 더 광범위한 AI 업계에 지속적인 영향을 미치고 있기 때문입니다.

Sutton은 자신의 연구 방법을 다음과 같이 설명합니다: 연구는 작은 부분에서 시작해야 합니다. 이러한 기초 연구는 즉각적인 기술 발전으로 이어지지 않습니다.

1978년부터 두 사람은 협력을 시작했습니다.

당시 Sutton은 매사추세츠 대학교 암허스트 캠퍼스에서 박사 과정을 밟고 있었고, 그의 지도교수는 Barto였습니다. 이후 Sutton은 Barto와 함께 박사 후 연구를 수행했습니다.

그들은 인간이나 기계 학습과 같은 방식으로, 반복적인 시행착오를 통해 지식을 얻는 초기 RL 알고리즘을 작성했습니다.

Sutton은 이를 통해 학계의 인정을 받았지만, 어느 정도 구글, 마이크로소프트, OpenAI 등 대기업이 구축한 LLM(대규모 언어 모델)이 대표하는 주류 이론과 견해 차이를 보였습니다.

그의 관점에서 이러한 기술은 단순히 인간 행동을 모방할 뿐이며, 자신의 행동을 인식하고 그로부터 학습하지 않습니다.

나는 이들이 AGI(일반 인공 지능)로 가는 올바른 경로에 있지 않다고 생각합니다.

강화 학습의 핵심은 기계가 '경험에서 학습'하거나 피드백을 이해하고 실수에서 배우도록 하는 것입니다.

그러나 LLM은 방대한 과거 데이터에서 정보를 추출하여 응답을 생성하므로, 그들의 지능 수준은 단순히 주어진 시간 내 신경망의 규모에 불과합니다.

따라서 LLM에는 '어리석은 약점'이 내재되어 있습니다. 문서 질문에 대한 응답을 조정할 수는 있지만, 그들의 주된 목표는 단순히 텍스트 시퀀스의 다음 출력을 결정하는 것뿐입니다.

오늘날 많은 AI 시스템에 대해 Sutton은 "당신과 상호 작용할 때 전혀 배우지 않는다"고 평가합니다.

예를 들어 그의 관점에서 ChatGPT는 자신의 경험에 따라 어떤 가중치도 변경하지 않으며, 결과에 대해 무관심하고 진정한 인지 능력도 없습니다. 그것은 어떤 일이 일어나도 놀라지 않는데, 그 이유는 그것이 어떤 일이 일어날지 기대하지 않기 때문입니다.

Sutton의 전 구글 DeepMind 동료 Michael Bowling은 그를 이렇게 평가했습니다.

세계 다른 곳이 대규모 언어 모델 응용 프로그램을 추구하는 동안 Rich는 여전히 기초 연구의 전선을 지키고 있습니다.

앞으로 사람들이 진정으로 인간과 상호 작용할 수 있는 AI 시스템을 보고 싶어 할 때, 그들은 Sutton의 강화 학습 공헌이 얼마나 중요했는지 깨닫게 될 것입니다.

그리고 지난 5년 동안 RL도 점점 더 주목받고 있습니다. 전 세계적으로 큰 반향을 일으킨 DeepSeek는 RL을 통해 긍정적 피드백 루프로 AI를 훈련시켰습니다.

알버타 기계 지능 연구소(Amii)의 책임자 Cam Linke에 따르면, Sutton은 겸손하고 과시하지 않는 전문가입니다. 그는 과학 분야에서 흔히 볼 수 있는 전통적인 위계 구조나 정치적 요인을 배제하고, 과학 과정 자체에 초점을 맞추고 있습니다.

Geoffrey Hinton, Yoshua Bengio, Yann LeCun이 2018년 심층 신경망 연구 공헌으로 상을 받은 데 이어, Sutton은 최근 캐나다 연구자로서 튜링상을 수상한 또 다른 인물입니다.

그는 자신을 강화 학습 지능체로 여기며, 경험을 통해 다양한 수준에서 학습한다고 말합니다. 예를 들어 발가락을 찧은 후 걸음걸이를 조정하거나, 직장에서 즐거움을 얻는 것 등입니다.

강화 학습이란 무엇인가?

AI 분야는 일반적으로 지각하고 행동할 수 있는 AI 에이전트를 구축하는 데 초점을 맞추고 있습니다.

더 지능적인 AI 에이전트는 더 나은 행동 계획을 선택할 수 있습니다. 따라서 어떤 행동 계획이 더 좋은지 알아내는 것이 AI에 매우 중요합니다.

보상 - 이 용어는 심리학과 신경과학에서 차용한 것으로, AI 에이전트에게 제공되는 행동 품질과 관련된 신호를 의미합니다.

강화 학습(RL)은 이러한 보상 신호의 지침에 따라 더 나은 행동 계획을 찾는 과정입니다.

보상에서 학습하는 개념은 동물 훈련사들에게 수천 년 동안 존재해왔습니다.

이후 1950년 앨런 튜링의 논문 '계산 기계와 지능'에서 '기계가 생각할 수 있는가?'라는 문제를 다루면서, 보상과 처벌에 기반한 기계 학습 방법이 제안되었습니다.

튜링은 일부 초기 실험을 수행했다고 언급했고, Arthur Samuel은 1950년대 후반 자가 대결을 통해 학습하는 체커 프로그램을 개발했지만, 그 후 수십 년 동안 AI 연구 분야에서 이 방향에 거의 진전이 없었습니다.

1980년대 초, 심리학 관찰에서 영감을 얻은 Barto와 그의 박사 과정 학생 Sutton이 강화 학습을 일반적인 문제 프레임워크로 구축하기 시작했습

강화 학습의 정보 요구가 최소화되고 MDP 프레임워크의 일반성과 결합되어 강화 학습 알고리즘을 광범위한 문제 영역에 적용할 수 있습니다.

Barto와 Sutton은 협력하든 다른 연구자들과 협력하든 많은 강화 학습의 기본 알고리즘을 개발했습니다.

그들의 가장 중요한 기여인 시간차 학습은 보상 예측 문제 해결에 중요한 돌파구를 이루었으며, 정책 경사 방법과 신경망을 표현 학습 함수로 사용하는 것도 있습니다.

그들은 또한 학습과 계획이 결합된 AI 에이전트 설계를 제안하고 환경 지식을 계획의 기반으로 활용하는 가치를 입증했습니다.

앞서 언급했듯이 「Reinforcement Learning: An Introduction」 이 책은 수천 명의 연구자들이 이 분야를 이해하고 기여할 수 있게 했으며, 더 중요하게는 오늘날 컴퓨터 과학의 많은 중요한 연구 활동을 계속 자극하고 있습니다.

Barto와 Sutton의 알고리즘이 수십 년 전에 개발되었지만, 지난 15년 동안 2018년 튜링상 수상자 Bengio, Hinton, LeCun이 개척한 딥러닝 알고리즘과 결합되면서 강화 학습의 실제 응용이 큰 진전을 이루었습니다 - 딥 강화 학습 기술입니다.

강화 학습의 가장 주목할 만한 예는 2016년과 2017년 AlphaGo 컴퓨터 프로그램이 세계 최고 수준의 인간 바둑 선수를 물리친 것입니다.

최근 몇 년 간의 또 다른 중요한 성과는 채팅봇 ChatGPT의 등장입니다.

ChatGPT는 LLM이며, 두 단계의 학습 과정을 거치는데, 두 번째 단계에서는 인간 피드백 기반 강화 학습(RLHF) 기술을 사용하여 인간의 기대와 선호를 더 잘 포착하고자 했습니다.

강화 학습은 많은 다른 분야에서도 눈에 띄는 성공을 거두었습니다.

주목할 만한 연구 사례는 로봇이 손으로 물리적 문제(큐브)를 조작하고 해결하는 운동 기술을 학습하는 것으로, 이는 완전히 시뮬레이션 환경에서 강화 학습을 수행하더라도 궁극적으로 현실 세계에서 성공할 수 있음을 보여줍니다.

다른 응용 분야에는 네트워크 혼잡 제어, 칩 설계, 인터넷 광고, 최적화 알고리즘, 글로벌 공급망 최적화, 채팅봇의 행동 및 추론 능력 향상, 심지어 컴퓨터 과학의 가장 오래된 문제 중 하나인 행렬 곱셈 알고리즘 개선 등이 포함됩니다.

마지막으로, 이 신경과학에 부분적으로 영감을 받은 기술은 다시 신경과학에 피드백을 제공했습니다. 최근 연구, 包括 Barto의 작업, 表明人工智能中开发的特定强化学习算法为有关人类大脑中多巴胺系统的大量发现提供了最佳解释。

수상자 소개

Andrew Barto

Andrew Barto는 매사추세츠 대학교 암허스트 캠퍼스 정보 및 컴퓨터 과학과의 명예 은퇴 교수입니다. IEEE와 AAAS의 펠로우입니다.

Barto는 1970년 미시간 대학교에서 수학 학사 학위를 받았습니다. Michael Arbib과 McCulloch 및 Pitts의 저작을 읽은 후 컴퓨터와 수학을 사용하여 뇌를 모방하는 데 관심을 가지게 되었고, 5년 후 세포 자동 장치에 관한 논문으로 박사 학위를 받았습니다.

그는 1977년 매사추세츠 대학교 암허스트 캠퍼스에서 박사 후 연구원으로 경력을 시작했고, 이후 부교수, 교수, 학과장 등 여러 직책을 역임했습니다.

그는 매사추세츠 대학교 신경과학 평생 공로상, IJCAI 연구 우수상, IEEE 신경망 학회 개척자상 등 많은 상을 받았습니다.

Richard Sutton

Richard Sutton은 알버타 대학교 컴퓨터 과학 교수, Keen Technologies의 연구 과학자, 그리고 알버타 기계 지능 연구소(Amii)의 수석 과학 고문입니다. AAAI, 영국 왕립 학회, 캐나다 왕립 학회의 펠로우입니다.

2017년부터 2023년까지 그는 DeepMind의 저명한 연구 과학자로 일했습니다.

알버타 대학교에 합류하기 전에 그는 1998년부터 2002년까지 AT&T 섀넌 연구소 AI 부서의 수석 기술 전문가로 근무했습니다.

Sutton은 스탠퍼드 대학교에서 심리학 학사 학위를 받았고, 매사추세츠 대학교 암허스트 캠퍼스에서 컴퓨터 및 정보 과학 석사 및 박사 학위를 받았습니다.

Sutton이 받은 상은 국제 AI 협회 연구 우수상, 캐나다 AI 협회 평생 공로상, 매사추세츠 대학교 암허스트 캠퍼스 우수 연구 업적상 등입니다.

참고 자료:

https://awards.acm.org/turing

본 기사는 WeChat 공식 계정 "新智元"에서 발췌했으며, 저자는 新智元, 편집자는 HNZ, 36氪의 허가를 받아 게재했습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트