인공 일반 지능(AGI)은 잊으세요. 최고의 AI 모델들도 여전히 수학 문제에 어려움을 겪고 있습니다.

avatar
Decrypt
03-18
이 기사는 기계로 번역되었습니다
원문 표시

인공 일반 지능( AGI )은 종종 인간처럼 다양한 영역에서 능력을 발휘할 수 있는 시스템으로 묘사됩니다. 이번 주에 발표된 MATHVISTA 벤치마크 테스트 결과는 현재 모델들이 아직 그 목표에 미치지 숏 있음을 보여줍니다.

마이크로소프트 리서치, 사하라 AI, 그리고 에모리 대학교의 연구원들은 차트, 그래프, 도표를 포함한 시각 정보를 기반으로 하는 수학적 추론과 같은 일반 지능의 핵심 역량을 테스트했습니다.

ChatGPT, 제미니(Gemini), Claude를 포함한 12개의 기본 모델을 테스트한 결과, GPT-4 Vision이 49.9%로 가장 높은 점수를 기록했습니다. 인간 참가자의 평균 점수는 60.3%였으며, 이는 현재의 AI 시스템과 일반 인공지능(AGI)에서 흔히 요구되는 광범위한 추론 능력 사이에 격차가 있음을 보여줍니다.

마이크로소프트 리서치의 수석 연구원인 하오 청은 디크립트(Decrypt) 의 인터뷰에서 "우리는 기계가 평범한 사람이 일상생활에서 할 수 있는 일들을 해낼 수 있기를 바랍니다."라고 말하며, "그것이 바로 모든 사람들이 인공 일반 지능(AGI)을 통해 추구하는 목표입니다."라고 덧붙였다.

이 프로젝트는 문제를 이미지, 다이어그램, 그래프로 표현함으로써 모델이 시각적 정보를 정확하게 해석하고 여러 단계를 거치는 수학적, 논리적 문제를 해결할 수 있는지 여부를 테스트합니다. 이러한 능력은 단순히 텍스트에서 패턴을 찾는 것 이상의 능력을 요구합니다.

모델은 여전히 ​​이러한 작업에서 어려움을 겪고 있으며, 그 한계를 측정하는 것은 어렵습니다.

청의 팀이 기존 평가 데이터 세트를 검토했을 때, 많은 데이터 세트에는 시각적 추론이 필요하지 않은 문제가 포함되어 있었습니다. 모델은 종종 텍스트에만 의존하여 정답을 도출했습니다.

"이상적인 상황은 아니죠."라고 청은 말했다.

GitHub와 Hugging Face에서 이용 가능한 MathVista는 2023년 10월에 출시되었습니다. 마이크로소프트 리서치에 따르면, 그 이후로 27만 5천 회 이상 다운로드되었으며, 지난 한 달 동안에만 1만 3천 회 이상 다운로드되었습니다.

하지만 데이터 세트를 구축하려면 표준 데이터 라벨링 이상의 작업이 필요했습니다. 마이크로소프트 리서치는 산술, 대수, 기하 및 통계 문제를 해결할 수 있으면서 그래프 해석이나 방정식 풀이와 같은 심층적인 수학적 추론과 사물 세기나 숫자 읽기와 같은 간단한 작업을 구분할 수 있는 주석 작성자가 필요했습니다.

시범 운영 단계를 거쳐 마이크로소프트는 사하라 AI를 해당 프로젝트 지원 업체로 선정했습니다. 사하라 AI는 훈련된 주석 작성자, 맞춤형 워크플로, 다단계 품질 검사를 제공하여 벤치마크에 사용된 6,000개 이상의 멀티모달 예제를 제작했습니다.

신뢰할 만한 기준점이 없으면 보다 광범위한 기계 지능을 향한 진전을 측정하기 어렵다고 사하라 AI의 CEO이자 USC 컴퓨터 과학 부교수인 션 렌(Ren) 말합니다.

"데이터 오염이라는 미묘한 문제가 있는데, 일단 이 데이터셋을 테스트에 사용하기 시작하면 그 결과가 다음 버전에 그대로 반영된다는 겁니다." 렌(Ren) 디크립트(Decrypt) 말했다. "그래서 그들이 특정 데이터셋만 해결하는 건지, 아니면 전체적인 역량을 갖춘 건지 알 수가 없죠."

벤치마크 답변이 모델의 훈련 데이터에 포함될 경우, 높은 점수는 추론보다는 암기를 반영할 수 있습니다. 이는 AI 시스템의 실제 성능 향상 여부를 판단하기 어렵게 만듭니다.

연구자들은 또한 훈련 데이터의 한계를 지적합니다. 공개적으로 이용 가능한 인터넷의 많은 부분이 이미 모델 데이터 세트에 포함되어 있습니다.

"새로운 지식을 이 과정에 접목시킬 수 있는 방법이 반드시 필요합니다."라고 청은 말했다. "이러한 지식의 한계를 뛰어넘기 위해서는 양질의 데이터가 필수적이라고 생각합니다."

제안된 방안 중 하나는 모델들이 상호 작용하고, 경험을 통해 학습하고, 피드백을 통해 개선할 수 있는 시뮬레이션 환경을 구축하는 것입니다.

"샌드박스 안에 현실 세계의 복제 세계 또는 거울을 만들어 모델이 실제 생활에서 인간이 하는 많은 일들을 할 수 있도록 함으로써, 기본적으로 인터넷의 경계를 허물 수 있습니다."라고 청은 말했다.

렌(Ren) 인공지능 시스템을 개선하는 데 있어 인간의 역할이 여전히 중요할 수 있다고 말했다. 모델은 빠르게 콘텐츠를 생성할 수 있지만, 그 콘텐츠를 평가하는 데는 인간이 여전히 더 뛰어나다는 것이다.

그는 "인간과 인공지능 사이의 격차, 즉 각자가 잘하는 분야와 부족한 분야를 활용하면 향후 인공지능을 크게 향상시킬 수 있다"고 말했다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
58
즐겨찾기에 추가
18
코멘트