튜링 테스트는 죽었고, ChatGPT는 인간 테스트를 통과한 것으로 간주되지 않으며, 슈퍼 AI 평가 신인 '논리 퍼즐'

avatar
36氪
09-01
이 기사는 기계로 번역되었습니다
원문 표시

세계 최강의 AI - ChatGPT는 다양한 시험을 통과할 수 있으며, 심지어 참과 거짓을 구별하기 어렵게 만드는 답변도 출력할 수 있습니다.

그러나 부족한 부분은 간단한 시각적 논리 퍼즐을 푸는 것입니다.

화면에 배열된 일련의 밝은 색상 블록으로 구성된 테스트에서 대부분의 사람들은 연결된 패턴을 발견할 수 있었습니다.

그러나 연구원들이 5월에 발표한 보고서에 따르면 GPT-4는 한 패턴에서는 1/3만 정확했고 다른 패턴에서는 3%만 정확했습니다.

논문 주소: https://arxiv.org/pdf/2305.07141.pdf

이 연구 팀은 AI 시스템의 기능을 테스트하기 위한 더 나은 벤치마크를 제공하고 GPT-4와 같은 대규모 언어 모델의 문제를 해결하는 데 도움을 주는 것을 목표로 합니다.

논문 저자인 Melanie Mitchell은 AI 분야의 사람들이 이러한 시스템을 평가하는 방법에 어려움을 겪고 있다고 말합니다.

AI 평가는 얼마나 효과적인가요?

지난 2~3년 동안 LLM은 여러 작업을 수행하는 능력 면에서 이전 AI 시스템을 능가했습니다.

수십억 개의 온라인 문장에 있는 단어 간의 통계적 상관관계를 기반으로 텍스트 입력이 주어지면 그럴듯한 다음 단어를 생성하는 방식으로 간단하게 작동합니다.

LLM을 기반으로 구축된 챗봇의 경우 추가 요소가 있습니다. 인간 트레이너는 봇의 응답을 미세 조정하기 위해 많은 피드백을 제공합니다.

놀랍게도, 방대한 인간 언어 저장소에서 훈련된 자동 완성과 유사한 이 알고리즘의 기능 범위는 엄청납니다.

다른 AI 시스템은 특정 작업에서 LLM을 능가할 수 있지만 문제별 데이터에 대해 교육을 받아야 하며 한 작업에서 다른 작업으로 일반화할 수 없습니다.

하버드 대학교의 인지과학자 토머 울먼(Tomer Ullman)은 LLM 이면에서 진행되는 일에 대해 대체로 두 진영의 연구자들이 정반대의 견해를 갖고 있다고 말합니다. 어떤 사람들은 알고리즘의 성취가 순간적인 추론이나 이해의 결과라고 생각합니다. 다른 사람들(그 자신과 Mitchell과 같은 다른 사람들을 포함하여)은 훨씬 더 조심스럽습니다.

토론 양측의 연구자들은 논리 퍼즐처럼 인간과 AI 시스템의 능력 차이를 드러내는 테스트가 올바른 방향으로 나아가는 단계라고 말합니다.

뉴욕 대학교의 인지 컴퓨팅 과학자인 브렌든 레이크(Brenden Lake)는 이러한 벤치마크가 오늘날 기계 학습 시스템의 단점을 드러내고 인간 지능의 요소를 푸는 데 도움이 된다고 말했습니다.

LLM을 가장 잘 테스트하는 방법과 해당 테스트의 의미에 대한 연구도 유용합니다.

Mitchell은 의학, 법률 등 현실 세계의 다양한 분야에 LLM을 적용하고 싶다면 이렇게 말했습니다. 그렇다면 그들의 능력의 한계를 이해하는 것이 매우 중요합니다.

튜링 테스트는 죽었는가?

오랫동안 기계 지능에 대한 가장 유명한 테스트는 튜링 테스트였습니다.

튜링 테스트는 영국의 수학자이자 컴퓨터 전문가인 앨런 튜링(Alan Turing)이 컴퓨터가 아직 초기 단계였던 1950년에 제안했습니다.

Turing은 "모방 게임"이라고 부르는 평가를 내놓았습니다.

이 시나리오에서는 "인간 판사"가 컴퓨터 및 보이지 않는 인간과 짧은 텍스트 기반 대화에 참여합니다.

인간은 어느 것이 컴퓨터인지 확실하게 감지할 수 있습니까? Turing에 따르면 이는 "기계가 생각할 수 있는가?"와 동일한 질문입니다.

Mitchell은 Turing이 시나리오의 세부 사항을 많이 지정하지 않았으므로 따라야 할 정확한 표준이 없다고 지적했습니다.

다른 연구자들은 GPT-4와 다른 LLM이 적어도 짧은 대화에서 많은 사람들을 속일 수 있기 때문에 이제 "튜링 테스트"를 통과할 가능성이 있다고 믿습니다.

지난 5월 AI21 Labs의 연구원들은 150만 명 이상의 사람들이 튜링 테스트 기반 온라인 게임을 플레이했다고 보고했습니다.

플레이어는 60%의 확률로 봇을 정확하게 식별했는데, 이는 우연보다 훨씬 낫지 않습니다.

그러나 이 게임에서는 LLM에 익숙한 연구자가 여전히 승리할 수 있습니다. AI 시스템의 알려진 약점을 활용함으로써 LLM을 쉽게 발견할 수 있습니다.

핵심은 LLM을 "편안한 영역"에서 벗어나게 하는 것입니다.

Google의 소프트웨어 엔지니어인 François Chollet은 LLM이 교육 데이터에서 자주 보는 시나리오의 변형인 몇 가지 시나리오를 LLM에 보여줄 것을 제안합니다. 많은 경우 LLM은 새로운 상황에 대한 정답보다는 훈련 데이터의 원래 질문과 가장 관련이 있을 가능성이 높은 단어를 내뱉어 답변합니다.

그러나 Chollet과 다른 사람들은 컴퓨터 과학의 목표인 속임수 중심 테스트에 회의적입니다.

벤치마킹이 위험하다

대신 연구자들은 일반적으로 AI 시스템을 평가할 때 튜링 테스트를 사용하지 않고 대신 언어, 상식 추론, 수학과 같은 특정 능력에 대한 성능을 평가하도록 설계된 벤치마크를 사용합니다.

점점 더 많은 연구 그룹이 인간을 위해 고안된 학술 및 전문 시험으로 전환하고 있습니다.

GPT-4가 출시되었을 때 OpenAI는 독해력, 수학, 코딩을 포함하여 기계용으로 설계된 일련의 벤치마크에서 성능을 테스트했습니다.

기술 보고서에 따르면 GPT-4는 대부분의 테스트에서 탁월한 결과를 얻었습니다.

또한 GPT-4는 30개 시험, 미국 의사의 임상 지식 현황을 평가하는 시험인 GRE, 미국 고등학생을 위해 고안된 다양한 과목별 시험 등을 치렀다.

나중에 연구자들이 언급한 과제 중 하나는 모델이 많은 양의 텍스트에 대해 훈련을 받았고 훈련 데이터에서 비슷한 문제를 발견했을 수 있으므로 실제로 답을 찾고 있을 수도 있다는 것입니다. 이 질문은 실제로 "오염"되었습니다.

연구원들은 또한 시험 문제에 대한 LLM 성공이 성공과 실패일 수 있으며 현실 세계에서 필요한 강력한 능력으로 해석되지 않을 수도 있다고 지적합니다.

이러한 벤치마크가 의미하는 바를 해석하는 데에는 더 깊은 문제가 있습니다.

한 시험에서 좋은 성적을 낸 사람은 일반적으로 다른 인지 시험에서도 좋은 성적을 거두었고 특정 추상적 개념을 숙달했다고 간주될 수 있습니다.

그러나 LLM은 인간과 매우 다르게 작동합니다. 그러므로 우리가 인간을 판단하는 것과 같은 방식으로 인공 지능 시스템을 추정하는 것이 항상 유효한 것은 아닙니다.

이는 LLM이 언어를 통해서만 배울 수 있기 때문일 수 있습니다. 물리적 세계에 존재하지 않으면 인간처럼 언어와 사물, 속성, 감정의 연결을 경험할 수 없습니다.

그들이 인간과는 다르게 단어를 이해한다는 것은 명백합니다.

반면 LLM은 인간이 갖지 못한 능력도 가지고 있는데, 예를 들어 인간이 쓴 거의 모든 단어 사이의 연관성을 알고 있습니다.

OpenAI의 연구원인 Nick Ryder는 한 테스트의 성능이 동일한 점수를 얻은 사람들에게 일반화되지 않을 수 있다는 데 동의합니다.

그는 “인간과 대규모 언어 모델에 대한 평가에서 동등한 결론을 도출해서는 안 된다고 생각한다”고 말했다. OpenAI의 점수는 "인간의 능력이나 추론 능력을 나타내지 않습니다. 모델이 작업을 얼마나 잘 수행하는지 보여주기 위한 것입니다."

AI 연구자들은 LLM의 강점과 약점을 찾기 위해서는 보다 광범위하고 엄격한 검토가 필요하다고 말합니다. 다채로운 논리 퍼즐이 하나의 후보가 될 수 있습니다.

논리 퍼즐

LLM이 등장하기 전인 2019년에 Chollet은 Abstraction and Reasoning Corpus(ARC)라고 불리는 자신이 만든 인공 지능 시스템에 대한 새로운 논리 테스트를 인터넷에 공개했습니다.

해결사는 여러 사각형이 다른 패턴으로 변하는 시각화를 보고 다음 사각형이 어떻게 변할지 지적함으로써 변화의 기본 규칙을 숙지했음을 보여주어야 했습니다.

Chollet은 ARC가 "인간 지능의 특징"을 포착한다고 말했습니다. 일상의 지식을 추상화하여 이전에 본 적이 없는 문제에 적용하는 능력입니다.

현재 여러 연구팀이 ARC를 사용하여 LLM의 기능을 테스트했지만 어느 팀도 인간에 가까운 성능을 달성하지 못했습니다.

Mitchell과 그녀의 동료들은 ARC에서 영감을 얻었지만 두 가지 주요 방식이 다른 ConceptARC라는 새로운 퍼즐 시리즈를 만들었습니다.

ConceptARC 테스트가 더 쉽습니다. Mitchell의 팀은 벤치마크에서 기계 성능의 작은 발전도 놓치지 않기를 원합니다. 또 다른 차이점은 팀에서 테스트할 특정 개념을 선택한 다음 각 테마 변형 개념에 대한 일련의 퍼즐을 만든다는 것입니다.

성능이 좋지 않다은 무슨 뜻인가요?

연구원들은 ConceptARC 작업을 GPT-4 및 400명의 온라인 지원자에게 할당했습니다.

인간은 모든 개념 그룹에서 평균 91%의 점수를 얻었습니다(한 그룹의 97% 포함). GPT 점수는 한 그룹에서 33%, 다른 모든 그룹에서는 30% 미만입니다.

연구자들은 AI가 여전히 인간의 성능에 접근할 수 없다는 것을 입증했습니다. 그러나 놀랍게도 이 로봇은 해결하도록 훈련받은 적이 없는 문제도 해결할 수 있습니다.

연구팀은 또한 Cchollet 대회에서 최고의 챗봇을 테스트했습니다.

전반적으로 그들은 GPT-4보다 더 나은 성적을 거두었지만 인간보다 더 나빴습니다. 한 범주에서 77%로 가장 높은 점수를 얻었지만 대부분의 범주에서는 60% 미만의 점수를 받았습니다.

그러나 Bowman은 GPT-4가 ConceptARC 시험에서 실패했다고 해서 기본 추상 추론 능력이 부족하다는 것을 증명하는 것은 아니라고 말했습니다.

실제로 ConceptARC는 GPT-4에 비해 몇 가지 단점이 있는데, 그 이유 중 하나는 시각적 테스트라는 점입니다.

현재 GPT-4는 텍스트만 입력으로 받아들일 수 있으므로 연구원들은 GPT-4에 이미지를 나타내는 숫자 배열을 제공했습니다. 대조적으로, 인간 참가자들은 이미지를 보았습니다.

추론 논증

Bowman은 다른 실험과 함께 LLM이 추상적 개념에 대해 추론하는 최소한의 기초적인 능력을 획득했다고 지적합니다.

그러나 LLM의 추론 능력은 일반적으로 인간의 추론 능력보다 "불균일"하고 제한적입니다. 그러나 LLM의 매개변수 규모가 증가할수록 추론 능력도 그에 따라 증가합니다.

많은 연구자들은 LLM의 추상적 추론 능력과 지능의 다른 징후를 테스트하는 가장 좋은 방법은 아직 풀리지 않은 미해결 문제로 남아 있다는 데 동의합니다.

참고자료

https://www.nature.com/articles/d41586-023-02361-7

이 기사는 WeChat 공개 계정 "Xin Zhiyuan"(ID: AI_era) , 작성자: Taozi, 36 Krypton에서 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트