OpenAI, 문제를 통해 '추론'하는 모델 발표, 이를 '새로운 패러다임'이라 부름

avatar
WIRED
09-13
이 기사는 기계로 번역되었습니다
원문 표시

OpenAI는 작년에 GPT-4를 출시하면서 모델의 크기를 어지러울 정도로 늘려 인공지능 분야에서 마지막으로 큰 돌파구를 마련했습니다. 이 회사는 오늘 접근 방식의 변화를 알리는 새로운 진전을 발표했습니다. 이 모델은 많은 어려운 문제를 논리적으로 "추론"할 수 있으며 대규모 확장 없이도 기존 AI보다 훨씬 더 똑똑합니다.

OpenAI-o1이라는 이름의 새로운 모델은 OpenAI의 가장 강력한 기존 모델인 GPT-4o를 포함하여 기존 AI 모델을 난처하게 만드는 문제를 해결할 수 있습니다. 일반적으로 대규모 언어 모델이 하는 것처럼 한 번에 답을 떠올리는 대신, 사람이 하듯이 효과적으로 큰 소리로 생각하면서 문제를 추론한 후 올바른 결과에 도달합니다.

OpenAI의 최고 기술 책임자인 미라 무라티는 WIRED에 "이것이 우리가 이 모델에서 새로운 패러다임 이라고 생각하는 것입니다."라고 말했습니다. "매우 복잡한 추론 작업을 처리하는 데 훨씬 더 뛰어납니다."

OpenAI 내부에서는 이 새로운 모델의 코드명이 Strawberry이고, 이는 GPT-4o의 후속 모델이 아니라 보완 모델이라고 회사 측은 밝혔다.

무라티는 OpenAI가 현재 다음 마스터 모델인 GPT-5를 구축 중이며, 이는 이전 모델보다 상당히 더 클 것이라고 말합니다. 하지만 이 회사는 여전히 규모가 AI에서 새로운 능력을 끌어내는 데 도움이 될 것이라고 믿지만, GPT-5에는 오늘 도입된 추론 기술도 포함될 가능성이 높습니다. 무라티는 "두 가지 패러다임이 있습니다."라고 말합니다. "스케일링 패러다임 과 이 새로운 패러다임 입니다. 우리는 이 두 가지를 하나로 합칠 것으로 기대합니다."

LLM은 일반적으로 방대한 양의 훈련 데이터를 공급받은 거대한 신경망에서 답을 떠올립니다. 그들은 놀라운 언어적, 논리적 능력을 보일 수 있지만 전통적으로 추론을 포함하는 기초적인 수학 문제와 같은 놀라울 정도로 간단한 문제에 어려움을 겪습니다.

무라티는 OpenAI-o1이 강화 학습을 사용한다고 말하는데, 이는 모델이 정답을 맞혔을 때 긍정적인 피드백을 제공하고, 틀렸을 때 부정적인 피드백을 제공하는 것을 의미하며, 추론 과정을 개선하기 위한 것입니다. 그녀는 "모델은 사고력을 예리하게 하고 정답에 도달하기 위해 사용하는 전략을 미세 조정합니다."라고 말합니다. 강화 학습을 통해 컴퓨터는 초인적인 기술로 게임을 하고 컴퓨터 칩을 설계하는 것과 같은 유용한 작업을 수행할 수 있게 되었습니다. 이 기술은 또한 LLM을 유용하고 예의 바른 챗봇으로 전환하는 데 중요한 요소입니다.

OpenAI의 연구 부사장인 마크 첸은 WIRED에 새로운 모델을 시연하면서, 이전 모델인 GPT-4o에서는 풀 수 없는 여러 문제를 해결하는 데 사용했습니다. 여기에는 고급 화학 문제와 다음과 같은 정신을 휘젓는 수학 퍼즐이 포함되었습니다. "공주는 왕자와 같은 나이가 되는데, 공주의 나이가 왕자의 두 배 나이가 되었을 때 공주의 나이가 현재 나이의 절반일 때입니다. 왕자와 공주의 나이는 몇 살입니까?" (정답은 왕자는 30살이고 공주는 40살입니다).

Chen은 "새로운 모델은 기존 LLM이 하는 것처럼 인간의 생각 방식을 모방하려고 하기보다는 스스로 생각하는 법을 배우고 있습니다."라고 말했습니다.

OpenAI는 새로운 모델이 코딩, 수학, 물리, 생물학, 화학에 초점을 맞춘 문제를 포함한 여러 문제 세트에서 눈에 띄게 더 나은 성과를 보인다고 말합니다. 회사에 따르면 수학 학생을 위한 시험인 American Invitational Mathematics Examination(AIME)에서 GPT-4o는 평균 12%의 문제를 풀었고 o1은 83%를 맞혔습니다.

새로운 모델은 GPT-4o보다 느리며, OpenAI에 따르면 항상 더 나은 성능을 보이는 것은 아닙니다. 그 이유 중 하나는 GPT-4o와 달리 웹을 검색할 수 없고 멀티모달이 아니기 때문입니다. 즉, 이미지나 오디오를 구문 분석할 수 없습니다.

LLM의 추론 능력을 향상시키는 것은 얼마 동안 연구계에서 화제가 되어 왔습니다. 실제로 경쟁사들도 비슷한 연구 분야를 추구하고 있습니다. 7월에 Google은 언어 모델과 강화 학습을 결합하여 어려운 수학 문제를 해결하는 프로젝트인 AlphaProof를 발표했습니다.

AlphaProof는 정답을 보고 수학 문제에 대한 추론 방법을 학습할 수 있었습니다. 이런 종류의 학습을 확대하는 데 있어 핵심적인 과제는 모델이 마주칠 수 있는 모든 것에 대한 정답이 없다는 것입니다. Chen은 OpenAI가 훨씬 더 일반적인 추론 시스템을 구축하는 데 성공했다고 말합니다. "저희는 거기서 몇 가지 획기적인 진전을 이루었다고 생각합니다. 그것이 저희의 우위의 일부라고 생각합니다." Chen이 말합니다. "사실 모든 도메인에서 추론하는 데 상당히 능숙합니다."

LLM의 추론 능력 향상에 대한 연구를 발표한 스탠포드 대학의 노아 굿맨 교수는 보다 일반화된 훈련의 핵심은 훈련을 위해 "신중하게 유도된 언어 모델과 수작업으로 만든 데이터"를 사용하는 것일 수 있다고 말합니다. 그는 결과의 속도를 더 높은 정확도로 일관되게 바꿀 수 있다면 "좋은 진전"이 될 것이라고 덧붙입니다.

MIT 조교수인 윤 킴 은 LLM이 문제를 해결하는 방식은 현재 다소 신비로 남아 있으며, 단계별 추론을 수행하더라도 인간 지능과는 주요한 차이가 있을 수 있다고 말합니다. 이는 기술이 더 널리 사용됨에 따라 중요할 수 있습니다. 그는 "이러한 시스템은 잠재적으로 많은 사람에게 영향을 미치는 결정을 내릴 수 있습니다."라고 말합니다. "더 큰 질문은 계산 모델이 어떻게 결정에 도달하는지 확신해야 합니까?"

OpenAI가 오늘 도입한 기술은 AI 모델이 제대로 동작하도록 보장하는 데 도움이 될 수도 있습니다. Murati는 새로운 모델이 행동의 결과에 대해 추론함으로써 불쾌하거나 잠재적으로 해로운 결과를 생성하는 것을 피하는 데 더 나은 것으로 나타났다고 말합니다. 그녀는 "어린이들에게 가르치는 것을 생각해 보면, 왜 특정한 일을 하는지 추론할 수 있게 되면 특정 규범, 행동 및 가치에 맞춰 훨씬 더 잘 배웁니다."라고 말합니다.

OpenAI의 첸은 회사가 개발한 새로운 추론 접근 방식이 AI를 발전시키는 데 엄청난 양의 컴퓨팅 파워가 필요하지 않다는 것을 보여준다고 말합니다. 그는 " 패러다임 에 대한 흥미로운 점 중 하나는 우리가 더 저렴하게 지능을 제공할 수 있을 것이라고 믿는다는 것입니다."라고 말하며, "저는 그것이 정말로 우리 회사의 핵심 사명이라고 생각합니다."라고 덧붙였습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
4
즐겨찾기에 추가
1
코멘트