AI가 휴먼 올림피아드 금메달을 놓고 경쟁합니다. DeepMind의 수학적 모델은 IMO 기하학 문제 25개를 올바르게 해결했습니다. GPT-4는 비참하게 실패하여 0점을 얻었습니다.

01-18

이 기사는 기계로 번역되었습니다

원문 표시

[소개] 오늘 Google DeepMind의 AlphaGeometry 모델이 Nature에 게재되었습니다! IMO 기하학 문제 30개 중 25개를 풀 수 있는데, 이는 인간 금메달 선수 수준에 가깝습니다! GPT-4의 경우 한 문제도 풀지 못하고 바로 실패했습니다.

Google DeepMind의 AI 에이전트가 다시 기록을 경신했습니다!

AlphaGeometry라고 불리는 이 AI 시스템은 국제수학올림피아드(IMO)에서 기하학 문제 30개 중 25개를 풀 수 있으며, 이 성능은 이미 인간 수학올림피아드 금메달리스트의 수준에 가깝습니다.

이후 수학 분야에서 AI의 추론 능력은 다시 한 번 이전 최고 수준을 뛰어 넘는 획기적인 업그레이드를 달성했습니다.

이 연구는 네이처(Nature)지에 게재되었습니다.

논문 주소: https://www.nature.com/articles/s41586-023-06747-5

다음 IMO 경쟁 기하학 질문은 한때 많은 참가자들을 난처하게 만들었지만 이제는 AI가 이 문제를 해결할 수 있습니다!

더욱 특별한 점은 이 모델이 일반적으로 사용되는 실제 데이터가 아닌 합성 데이터를 기반으로 학습되었다는 점입니다.

학습 과정은 다음과 같습니다. 먼저 수십억 개의 임의의 기하학적 도형이 초기에 생성되고 각 도형의 점과 선 사이의 모든 관계가 종합적으로 분석됩니다.

그런 다음 AlphaGeometry는 각 그림의 모든 증명을 찾고 역방향으로 작업하여 해당 증명을 얻기 위해 어떤 추가 기하학적 요소(있는 경우)가 추가되었는지 알아냅니다.

이러한 방식으로 AlphaGeometry는 신경 언어 모델과 기호 추론 엔진의 장점을 결합하여 신경 기호 시스템을 형성합니다.

두 시스템 중 하나는 빠르고 직관적인 아이디어를 제공하는 반면, 다른 하나는 보다 신중하고 합리적인 의사 결정을 담당합니다. 대담한 가설, 신중한 검증, 계획의 지속적인 개선, 복잡한 기하학적 정리의 증명.

합성 데이터라는 아이디어는 대형 모델의 코퍼스가 부족한 문제에 대한 새로운 탈출구를 제공하기도 합니다.

네티즌들은 “이건 역사를 만드는 것뿐이다!”라고 외쳤다.

OpenAI 연구원이자 포커 AI의 아버지인 노암 브라운(Noam Brown)은 “이러한 결과를 달성한 구글 딥마인드 팀에게 축하를 전한다! AI가 고급 수학 분야에서 이렇게 큰 발전을 이루는 것을 보는 것은 매우 흥미롭다”고 말했다.

실제 테스트

더 이상 고민하지 않고 바로 실제 질문으로 들어가겠습니다.

이등변삼각형 ABC에서 AB와 AC의 변의 길이는 동일하다는 것이 알려져 있습니다. 증명: ∠ABC = ∠BCA.

이등변삼각형의 밑각은 같다는 것은 중학교 수학(이등변 정리 1)을 공부한 사람이라면 누구나 다 아는 상식인데 어떻게 증명할 수 있을까요?

AlphaGeometry가 하는 일은 상징적 추론 엔진을 실행하여 증명 검색을 시작하는 것입니다.

이 엔진은 정리가 증명되거나 새로운 진술이 소진될 때까지 정리 전제에서 끊임없이 새로운 진술을 도출합니다.

그러나 기호 엔진이 증명을 찾을 수 없는 경우 언어 모델은 기호 엔진이 다시 시도하기 전에 증명 상태를 높이는 보조 지점을 구성합니다.

이 주기는 해결책을 찾을 때까지 계속됩니다.

예를 들어, 첫 번째 보조 구성 "D를 BC의 중간점으로" 후에 루프가 종료됩니다.

그런 다음 두 가지 다른 단계로 구성된 증명 프로세스가 시작됩니다. 두 단계 모두 중간점의 속성을 활용합니다. "BD = DC" 및 "B, D 및 C는 동일선상에 있습니다."

이후 ∠ABC = ∠BCA가 증명될 때까지 이 사이클은 계속됩니다.

동시에 2015년 IMO의 P3도 AlphaGeometry를 통해 쉽게 처리되었습니다.

이 질문에 답하려면 세 가지 보조점을 구성해야 합니다.

두 솔루션 모두에서 연구원들은 실행 순서를 반영하여 언어 모델 출력(파란색)과 기호 엔진 출력을 인터리브했습니다. (구체적인 증명 과정은 논문을 참조하세요)

AlphaGeometry조차도 IMO 2004 P1에서 사용되지 않은 전제를 발견했습니다.

최소 전제를 클레임 데 필요한 역추적 알고리즘으로 인해 AlphaGeometry는 증명에 불필요한 전제를 식별했습니다. O는 BC의 중간점이 될 필요가 없으며 P, B, C는 동일 선상에 있습니다.

그 중 오른쪽 위가 원래의 정리도이고, 아래가 일반화된 정리도인데, O는 중간점 위치에서 풀려나고 P는 여전히 직선 BC에 머무르고 있다.

원래 문제에서는 P가 B와 C 사이에 있어야 하는데, 이는 일반 정리와 해법이 보장할 수 없는 조건입니다. 하지만 AlphaGeometry는 이 문제를 해결합니다.

또한 AlphaGeometry는 2008 IMO P6 증명 문제에서 실패했습니다. 이는 30개 질문 세트 중 가장 어려운 문제로, 평균 인간 점수는 0.28/7에 불과합니다.

북경대학교의 Wei Shen이 IMO 2008과 IMO 2009에서 2년 연속 만점으로 금메달을 획득했다는 점은 주목할 만합니다.

AI 테스트를 치르기 위해 수학 올림피아드 문제를 사용해야 하는 이유는 무엇입니까?

AI 시스템의 수학적, 논리적 추론 능력이 충분히 강력한지 어떻게 평가할 수 있을까요?

이는 자연스럽게 원래 질문 IMO와 같은 가장 어려운 수학 질문을 제공하는 것입니다.

결국 국제수학올림피아드에 참가할 수 있는 이들은 전 인류의 최고 수준을 대표한다고 할 수 있는 수학 분야에서 세계 최고의 고등학생들이다.

그러니 이 테스트는 AI와 인간의 결투라고도 할 수 있죠!

전문가들은 2000년부터 2022년까지 IMO 경쟁 문제 30개를 선정해 IMO-AG-30 벤치마크 테스트 세트를 구성한 뒤 제한된 경쟁 시간 내에 '참가자'들이 경쟁할 수 있도록 했다.

결투 결과 구글 딥마인드의 알파지오메트리(AlphaGeometry)는 IMO 금메달리스트 수준에 가깝다.

인간 금메달 선수들은 평균 25.9개의 문제를 풀 수 있는데 비해 알파지오메트리(AlphaGeometry)는 25개의 문제를 풀 수 있어 인간과 한없이 가깝다고 할 수 있다.

이전 SOTA AI 시스템인 '우의 방법(Wu's Method)'은 10개의 문제만 풀 수 있었습니다.

Wu의 방법 외에도 AlphaGeometry와 다른 최신 방법을 비교한 결과, GPT-4는 IMO 시험 문제 30개 중 하나도 풀지 못해 바로 0점을 받았습니다!

아시다시피, 이전 AI 에이전트는 복잡한 수학적 문제를 다룰 때 추론 능력이 부족하고 훈련 데이터가 부족하여 어려움을 겪는 경우가 많았습니다.

그러나 AlphaGeometry가 다른 점은 신경 언어 모델의 예측 능력과 규칙 기반 추론 엔진을 결합하여 두 시스템이 함께 작동하여 솔루션을 찾을 수 있다는 것입니다.

또한 연구원들은 최대 1억 개의 고유 샘플에 대량 의 합성 훈련 데이터를 생성할 수 있는 방법을 개발했습니다.

이러한 방식으로 데이터 부족 문제를 효과적으로 해결하고 사람의 시연에 의존하지 않고도 AlphaGeometry를 훈련할 수 있습니다.

AlphaGeometry를 통해 우리는 AI의 논리적 추론, 새로운 지식의 발견, 검증 능력이 지속적으로 향상되고 있음을 확인할 수 있습니다.

오늘날 AI는 이미 올림픽 수준의 기하학 문제를 해결할 수 있으며, 어느 날 AGI가 나타날 때까지 더 발전되고 더 일반적인 AI 시스템이 나타날 수 있습니다.

이제 Google DeepMind는 합성 데이터 생성 및 훈련을 위한 다른 도구와 함께 수학, 과학 및 AI 분야에 새로운 기회를 가져올 수 있기를 희망하면서 AlphaGeometry의 코드와 모델을 오픈 소스로 만들었습니다.

프로젝트 주소: https://github.com/google-deepmind/alphageometry

기하학적 증명 이중 버프: 대형 모델 + 상징적 추론 엔진

특히 AlphaGeometry는 두 가지 주요 구성 요소로 구성된 신경 기호 시스템입니다.

1. 신경 언어 모델

2. 상징적 추론 엔진

이 AI 시스템은 위의 두 부분을 사용하여 함께 작동하여 복잡한 기하학적 정리 증명을 달성합니다.

Google DeepMind 팀은 "Thinking: Fast and Slow"라는 책에서 아이디어를 인용했습니다.

"이것은 우리의 '직관적 사고' 및 '논리적 사고'와 약간 비슷합니다. 한 시스템은 빠르고 직관적인 아이디어를 제공하는 반면 다른 시스템은 보다 신중하고 논리 기반 결정을 내립니다."

여기서 신경 언어 모델은 "시스템 1"로, 데이터의 공통 패턴과 관계를 발견하는 데 능숙하고 도움이 될 수 있는 기하학적 구조를 빠르게 예측할 수 있습니다.

그러나 그들은 엄격한 추론에 능숙하지 못하고 자신의 의사결정 과정을 설명하지 못하는 경우가 많습니다.

기호 추론 엔진은 다르며 "시스템 2"로 간주될 수 있습니다.

그들은 공식적인 논리를 기반으로 하며 명확한 규칙을 따라 논리적이고 설명 가능한 결론에 도달합니다.

그러나 크고 복잡한 문제를 해결할 때 기호 추론 엔진은 "느리고" 유연하지 않을 수 있습니다.

간단한 문제를 풀 때 AlphaGeometry의 프로세스: 먼저 문제와 해당 정리 가정(왼쪽 그림)이 주어지면 AlphaGeometry(가운데 그림)는 기호 엔진을 사용하여 그래프에 대한 논리적 추론을 수행하여 답을 찾을 때까지 새로운 결론을 도출합니다. 더 이상 파생이 불가능합니다. 답을 찾지 못한 경우 AlphaGeometry의 언어 모델은 잠재적으로 문제 해결에 도움이 되는 새로운 그래픽 요소(파란색으로 표시)를 도입하여 기호 엔진에 대한 새로운 추론 경로를 제공합니다. 문제에 대한 해결책을 찾을 때까지 이 과정을 반복합니다(오른쪽). 이 예에서는 하나의 새로운 그래픽 요소만 추가되었습니다.

AlphaGeometry 언어 모델의 역할은 기호 추론 엔진이 기하학적 문제를 해결하기 위한 가능한 경로를 찾도록 안내하는 것입니다.

일반적으로 IMO 수준의 기하학 질문은 다이어그램을 기반으로 하는 경우가 많으며 솔루션을 찾으려면 점, 선 또는 원과 같은 새로운 기하학적 요소를 다이어그램에 추가해야 합니다.

AlphaGeometry의 언어 모델은 무한한 가능성 속에서 문제를 해결하는 데 어떤 새로운 요소가 가장 도움이 될지 예측할 수 있습니다. 이러한 힌트는 정보의 공백을 메우는 데 도움이 되므로 기호 엔진이 다이어그램에 대해 더 많은 추론을 하고 정답에 더 가까워질 수 있습니다.

예를 들어 AlphaGeometry는 2015 국제 수학 올림피아드(아래)의 세 번째 문제를 해결했는데, 오른쪽 부분이 문제 해결 과정의 핵심입니다.

전체 문제 해결 과정은 109단계의 논리적 추론으로 구성됩니다.

그림의 파란색 부분은 새로 추가된 그래픽 요소를 나타냅니다.

또한 Google 팀은 AlphaGeometry에 IMO 2005 P3 문제를 해결하도록 요청했으며 이를 완료하는 데 총 110단계가 걸렸습니다.

문제 해결을 위한 전체 단계: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry%20/AlphaGeometry%20solution.pdf

AI를 처음부터 훈련시키기 위한 1억 개의 합성 데이터

AlphaGeometry의 수학 해결 능력은 너무나 강력하고, 더욱 충격적인 것은 합성 데이터만을 사용하여 0부터 학습을 완료한다는 점입니다.

Google DeepMind가 지적했듯이 AI 시스템은 훈련 데이터 부족으로 인해 어려운 기하학적 문제를 해결하는 데 어려움을 겪었습니다.

이에 연구진은 '합성 데이터' 기술을 사용해 인간의 시연 교육 없이 지식 축적 과정을 시뮬레이션하고 처음부터 AlphaGeometry 교육을 시작했습니다.

아래에는 합성 데이터에서 생성된 무작위 그래픽의 몇 가지 예가 나와 있습니다.

Google은 100,000개의 CPU를 사용하여 처음에 10억 개의 기하학적 객체에 대한 무작위 그래프를 생성하고 각 그래프의 점과 선 사이의 모든 관계에 대한 포괄적인 파생을 수행했습니다(기호 미적분학 및 역추적 프로세스를 실행하는 데 3~4일이 걸렸습니다).

AlphaGeometry 합성 데이터 생성 프로세스

AlphaGeometry는 각 다이어그램에서 모든 증명을 찾았을 뿐만 아니라 이러한 증명에 도달하기 위해 어떤 추가 그래픽 구성이 필요한지 결정하기 위해 역방향 작업도 수행했습니다.

연구자들은 이 과정을 "상징적 추론 및 추적"이라고 부릅니다.

AlphaGeometry는 합성 데이터의 시각화를 생성합니다.

중복 샘플을 제거하기 위해 이 거대한 데이터 세트를 조사한 후 마침내 다양한 난이도를 다루는 1억 개의 고유한 교육 샘플로 구성된 데이터 세트를 얻었습니다.

그 중에는 900만 개의 추가 구조 샘플도 있습니다.

AlphaGeometry의 언어 모델은 이러한 구조가 어떻게 완전한 증명에 도움이 되는지에 대한 많은 사례를 분석하고, 올림픽 수준의 기하학 문제를 다룰 때 효과적인 제안을 제공하고 새로운 기하학적 구조를 설계할 수 있습니다.

생성된 합성 데이터 분석

IMO 금메달리스트, 선구적인 수학적 추론으로 AI 칭찬

IMO 경쟁 질문에 대한 AlphaGeometry의 답변은 모두 컴퓨터 검증을 통과했습니다.

Google DeepMind는 결과를 이전 AI 방법과 비교하고 올림픽 대회에서 인간 운동선수의 성과를 비교했습니다.

AlphaGeometry 증명 단계와 다양한 질문에 대한 IMO 참가자의 평균 점수 비교

AlphaGeometry의 솔루션 중 일부를 검토하기 위해 수학 코치이자 IMO 금메달리스트인 Evan Chen도 초대했다는 점은 언급할 가치가 있습니다.

AlphaGeometry의 출력은 칭찬할 만합니다. 검증을 견딜 수 있을 뿐만 아니라 명확하게 명시되어 있기 때문입니다. 이전 AI가 증명 경쟁 문제를 해결했을 때 답변을 충분히 신뢰할 수 없는 경우가 있었습니다(출력 결과가 때로는 맞을 때도 있고 틀릴 때도 있어 사람의 검증이 필요함). AlphaGeometry는 이 문제를 겪지 않습니다. AlphaGeometry의 솔루션은 기계 검증이 가능한 구조를 가지고 있습니다.
그럼에도 불구하고 그 결과는 인간이 이해하기 쉽습니다. 컴퓨터 프로그램이 일련의 지루한 대수 연산인 좌표계를 무차별 대입하여 크래킹하여 기하학 문제를 해결할 것이라고 상상할 수 있습니다. 그러나 각도 및 유사 삼각형에 대한 지식을 포함하여 학생들이 배우는 전통적인 기하학 규칙을 사용하는 AlphaGeometry의 경우에는 그렇지 않습니다.

각 IMO 대회에는 총 6개의 질문이 있으며, 일반적으로 기하학과 관련된 질문은 2개뿐입니다.

따라서 AlphaGeometry는 올림피아드 문제의 약 1/3에서만 역할을 할 수 있습니다.

그럼에도 불구하고 기하학 분야에서의 역량은 "2000년과 2015년 국제수학올림피아드 동메달 기준을 통과한 세계 최초의 AI 모델"이 될 만큼 충분하다.

기하학적 문제 해결 측면에서 AlphaGeometry는 IMO 금메달 플레이어 수준에 가깝습니다.

Google DeepMind는 자사의 야망이 그 이상이며 추론 분야의 차세대 AI 시스템 개발을 촉진하기를 희망한다고 밝혔습니다.

처음부터 대규모 합성 데이터를 사용하여 AI 시스템을 훈련하는 이 방법은 수학 및 기타 분야에서 미래 AI 시스템에 대한 새로운 지식 발견 패러다임에 영향을 미칠 것으로 예상됩니다.

실제로 AlphaGeometry 시스템을 구축하기 전에 Google DeepMind와 Google Research는 AI 수학적 추론에 대한 많은 기초 작업을 대량.

이전에 Google DeepMind는 FunSearch를 출시하여 LLM이 수학 분야에서 미해결 미스터리를 최초로 발견한 기록을 깨뜨렸습니다.

Google DeepMind의 장기 목표는 AGI가 달성될 때까지 다양한 수학 분야에 걸쳐 복잡한 문제를 해결하고 고급 추론을 수행할 수 있는 AI 시스템을 구축하는 것입니다.

네티즌: AGI 특이점이 다가오고 있다

AlphaGeometry의 탄생은 AlphaFold, AlphaCode 등 '알파 제품군'의 출시로 인해 AI 분야에 엄청난 충격이 가해진 것과 비슷합니다.

동시에 '합성 데이터'의 중요성과 잠재력이 점점 더 부각되고 있습니다.

구글 딥마인드(Google DeepMind)의 공동 창립자이자 수석 AGI 과학자인 셰인 레그(Shane Legg)는 “1990년 크라이스트처치에서 열린 뉴질랜드 IMO 훈련 캠프에서 미친 기하학적 문제를 풀려고 노력했던 기억이 아직도 어렴풋이 기억난다. , 조금 놀랐습니다! AGI가 점점 가까워지고 있습니다."

어제 UCLA 박사과정 학생인 Pan Lu의 수학적 추론 벤치마크 MathVista에 대한 연구가 ICLR 2024의 구두 논문으로 승인되었습니다.

그는 구글의 최신 연구를 본 후 "2021년에 우리는 기하학에 대한 초기 연구를 탐구했습니다. 신경 기호 솔버인 InterGPS가 처음으로 인간 평균 성능에 도달했습니다. 이제 AlphaGeometry는 역사를 기록합니다. 획기적인: 올림픽 수준의 기술 획득 !"

일부 네티즌들은 이는 그야말로 빅 이벤트라고 말했다. 수학적 추론은 물리학으로 확장될 수 있고, 물리학은 화학과 생물학으로 확장될 수 있습니다. 인공 지능은 앞으로 몇 년 동안 연구를 지배할 가능성이 높습니다. 특이점이 다가오고 있습니다.

대부분의 현직 수학자들은 특히 할당된 시간 내에 이를 수행할 수 없습니다. 합성 데이터만으로 훈련하면 수학에는 데이터 병목 현상이 없음을 알 수 있습니다. 무제한의 고품질 합성 데이터를 쉽게 생성할 수 있기 때문입니다.

NVIDIA 머신러닝(ML) 과학자 Shengyang Sun은 "이러한 합성 문제가 IMO 2024에서도 나타날까요?"라고 호기심을 갖고 질문했습니다.

CMU 머신러닝(ML) 고징유 박사는 "2024년은 합성 데이터의 해입니다! 저는 기하학 분야를 매우 좋아합니다. 합성 데이터의 효율성을 보장하기 위해 현실 세계와 결합할 수 있는 방법이 있기 때문입니다. 데이터."

참고자료:

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

https://www.nature.com/articles/s41586-023-06747-5

이 기사는 WeChat 공개 계정 "Xin Zhiyuan"(ID: AI_era) 에서 가져온 것입니다. 저자: Xinzhiyuan, 36 Krypton은 게시 권한을 받았습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트