GPT-4가 튜링 테스트를 통과했습니다! UCSD 연구팀은 실증 연구를 통해 인간이 GPT-4와 인간을 구별할 수 없다는 사실을 발견했다. 그리고 54%의 경우 인간이라고 판단되었습니다.
GPT-4는 튜링 테스트를 통과할 수 있나요?
충분히 강력한 모델이 탄생하면 사람들은 종종 Turing 테스트를 사용하여 이 LLM의 지능을 측정합니다.
최근 UCSD 인지과학과 연구자들은 다음과 같은 사실을 발견했습니다.
튜링 테스트에서 사람들은 GPT-4와 인간을 전혀 구별할 수 없습니다!
논문 주소: https://arxiv.org/pdf/2405.08007
튜링 테스트에서 GPT-4는 54%가 인간인 것으로 판단됐다.
실험 결과는 시스템이 "대화형" 2인 튜링 테스트에서 경험적으로 테스트를 통과한 최초의 사례임을 보여줍니다.
Cameron R. Jones 연구원은 500명의 자원자를 모집하여 4명의 평가자, 즉 GPT-4, GPT-3.5, ELIZA 및 인간으로 나누어졌습니다. 다른 역할은 화면 반대편에 숨겨져 있습니다. , 평가자의 발견을 기다리고 있습니다.
다음은 게임에서 발췌한 내용입니다. 어떤 대화 상자가 인간인지 알 수 있나요?
그림 1: 인간 심문관(녹색)과 증인(회색) 간의 대화 일부
실제로 이 네 번의 대화 중 하나는 인간 증인과의 대화였고, 나머지는 인공지능과의 대화였다.
통제된 '튜링 테스트'가 처음으로 시작되었습니다.
지난 74년 동안 튜링 테스트에 대한 많은 시도가 있었지만 통제된 실험은 거의 없었습니다.
유명한 Loebner Award는 매년 열리는 대회이지만, 1990년 첫 출시부터 2020년까지 어떤 시스템도 테스트를 통과한 적이 없습니다.
최근 대규모 연구에 따르면 인간은 2분 온라인 대화 중에 60% 정확도로 일련의 LLM을 식별할 수 있는 것으로 나타났습니다.
지금까지 테스트에 투입된 기계에 대한 "통제된" 실험 시연은 없었습니다.
사람들이 현재 AI 시스템의기만적인 행동을 간파하는 것이 가능한지 테스트하기 위해 연구원들은 GPT-4를 사용하여 무작위로 제어되는 2인 Turing 테스트를 수행했습니다.
테스트 요구 사항은 매우 간단합니다. 즉, 인간 참가자는 인간 및 인공 지능과 5분간 대화를 시작하고 대화 상대가 인간인지 여부를 확인합니다.
연구진은 서두에서 언급했듯이 GPT-4, GPT-3.5, ELIZA 총 3가지 모델을 평가했다.
처음 두 LLM의 경우, 연구원들은 GPT-4 및 GPT-3.5 탐색 연구에서 가장 성과가 좋은 단서를 적용하여 대규모 모델에 메시지에 응답하는 방법을 지시했습니다.
연구원들은 Turing 테스트를 해석하는 데 있어 핵심 과제는 시스템의 우수한 성능이 다음 두 가지 이유에서 발생할 수 있다는 것이라고 말합니다.
- 하나는 인간을 훌륭하게 흉내내는 것이다.
- 두 번째는 판사가 너무 속기 쉽다는 것입니다.
후자의 상황을 종종 ELIZA 효과라고 부르는데, 참가자가 단순한 시스템조차 인간화하는 경우입니다.
ELIZA 시스템은 모든 사람에게 친숙합니다.
1960년대의 단순한 규칙 기반 챗봇이었지만 사용자들은 인간의 특성도 여기에 귀속시키는 것을 발견했습니다.
따라서 실험에서 연구진은 ELIZA를 기준으로 삼아 ELIZA 효과를 실증적으로 정량화하고, 실험에서 작동 점검을 수행했습니다.
그렇다면 이 튜링 테스트의 구체적인 결과는 무엇입니까?
GPT-4 합격률 54%
먼저 중요한 지표인 합격률을 살펴보겠습니다.
연구자들은 합격률을 평가자들이 인간이라고 판단한 게임 내 개체의 비율로 정의했습니다.
GPT-4의 통과율은 54%로 GPT-3.5(50%)와 ELIZA 기준선(22%)을 초과하지만 인간 피험자(67%)보다는 낮습니다.
평가자 합격률(왼쪽)과 평가자 신뢰(오른쪽). 오른쪽 그림의 각 지점은 게임을 나타냅니다.
이 결과는 실제로 놀라운 것이 아니며 기본적으로 연구 초기 단계의 가정과 일치합니다.
실험에 앞서 연구자들은 몇 가지 가정을 세웠습니다. 첫째, 인간의 GPT-4 탐지 능력은 우연(50%)을 초과하지 않을 것이라고 가정했습니다.
이를 테스트하기 위해 연구원들은 로지스틱 회귀 모델을 사용하여 인터셉트 전용 통과율을 예측했습니다.
Intercept와 0 사이에는 큰 차이가 없으며(z=0.14, p=0.482), 이는 GPT-4의 합격률이 대략 50%와 동일할 수 있음을 나타냅니다. 베이지안 모델은 GPT-4 절편에 대한 95% 신뢰 구간을 -0.24-0.55로 예측합니다(통과율 44%-63%에 해당).
이는 인간이 GPT-4 대면 했을 때 성공적인 차별 확률이 동전을 던지는 것과 거의 같다는 것을 의미합니다!
이 결과는 연구진의 두 번째, 세 번째 가설도 확인시켜줬다. 인간의 합격률은 GPT-4 합격률보다 유의하게 높았고(z=2.42, p=0.017), GPT-4 합격률은 ELIZA 합격률보다 높았다. 비율(z=4.11, p<0.001).
그러나 연구진의 실험적 가정과 일치하지 않는 점은 GPT-4와 GPT-3.5의 성능이 거의 동일하다는 점이다(z=0.497, p=0.619).
'사람인 척' 부분에서는 동점이다.
또한 LLM의 작동 방식에 대해 더 잘 이해하고 있다고 보고한 참가자가 LLM을 식별하는 데 성공하지 못했다는 사실도 예상치 못했습니다(z = -0.023, p = 0.869).
연구진은 탐색적 분석에서 연령이 질문자 정확도에 부정적인 영향을 미치는 것으로 나타났으나(z = -2.24, p = 0.025), 성별, 교육 수준, 챗봇과의 상호작용 빈도 등 기타 인구통계학적 변수에는 큰 영향이 없는 것으로 나타났습니다. .
왜 이런 결과가 나온 걸까요? 그 이유를 분석해 보겠습니다.
평가자의 결정에 정확히 영향을 미치는 것이 무엇인지에 대한 통찰력을 얻기 위해 우리는 평가자가 사용한 전략과 그들이 결정에 제공한 이유를 분류했습니다.
평가자의 36%는 평가 대상자와 대화를 나누고 개인 정보나 일상 활동에 대해 질문합니다.
두 번째 및 세 번째 범주에서 가장 일반적으로 사용되는 전략은 사회적, 정서적 전략이었습니다(25%). 예를 들어 평가자의 관점 과 경험에 대해 질문하고 유머 감각이 있는지 관찰합니다.
다른 사람들은 수학, 논리 및 일반 지식에 대한 질문을 포함하여 지식과 추론(13%)에 중점을 둡니다.
요청 정책(왼쪽) 및 평균 정확도(오른쪽)
각 전략의 효과를 비교하기 위해 연구원들은 이러한 전략을 사용하여 평균 정확도를 계산했습니다.
평가자는 일반적으로 인간의 경험(75%), 논리와 수학(78%)에 대해 질문하거나 인공지능에 대해 상대방을 직접적으로 '고발'(80%)하는 경우 '정답'에 더 가깝습니다.
게임에서 인공 지능은 종종 평가자가 자신이 너무 무심하거나 개성이 부족하기 때문에 역할을 강요하는 것처럼 느끼기 때문에 "과시"합니다.
반면에 ELIZA는 부자연스러운 반응과 상황 인식 부족으로 인해 쉽게 "노출"됩니다.
게임에 참여한 자원봉사자들이 사용한 전략과 의사결정 이유 모두 전통적인 지적 범주(지식 및 추론)보다는 언어 스타일 및 사회 정서적 요인에 더 중점을 두고 있음을 알 수 있습니다. .
이는 자원봉사자들의 기본 가정, 즉 사회적 지능이 AI의 가장 흉내낼 수 없는 인간 특성이라는 가정을 반영하는 것으로 보입니다.
튜링 테스트 통과
시스템이 Turing 테스트를 통과했는지 어떻게 알 수 있나요?
튜링은 1950년 논문에서 세기말이 되면 AI 시스템이 모방 게임을 잘 수행할 수 있어 조사관이 5분 간의 교환 후에 정확한 식별을 할 확률이 70% 이하가 될 것이라고 예측했습니다.
이러한 결론은 AI 합격률이 30%에 도달할 수 있는지로 이어졌으며, 이는 많은 연구자들의 논의 목표가 되었다.
그러나 이 벤치마크는 임의적인 것으로 보이며 Turing이 이를 성공의 정의로 의도했는지 여부는 불분명합니다.
실제로 50% 기준선은 인간 검토자가 AI를 식별하는 데 있어서 우연보다 나을 것이 없다는 것을 더 잘 증명하기 때문에 더 합리적입니다.
이 정의는 사용자가 온라인 상호 작용 중에 다른 사람을 안정적으로 식별할 수 있는지 여부를 알아내는 목표와 특히 관련이 있습니다.
조사관의 사전 공개 분석에서 이 문제는 ELIZA 기준을 성능 확인으로 사용하여 해결되었습니다.
분석 결과 ELIZA의 합격률이 확률보다 낮고 GPT-4의 합격률이 확률보다 낮지 않은 경우에만 모델이 테스트를 통과한 것으로 판단할 수 있습니다.
이 정의에 따르면 GPT-4는 이 버전의 Turing 테스트를 분명히 통과했습니다.
또한 참가자의 신뢰도 점수와 의사결정 기준은 무작위로 추측한 것이 아님을 보여주었습니다. GPT-4의 평균 인간 신뢰 수준은 73%입니다(그림 2 참조).
네티즌 토론
일부 네티즌들은 튜링 테스트를 지능과 동일시한다면 튜링 테스트는 좋은 테스트가 아니라고 말했습니다. 그러나 AI가 거의 항상 인간을 속일 수 있다는 사실은 다소 우려스럽습니다.
다른 사람들은 테스트에 회의적이라고 말했습니다. GPT-4는 대부분의 인간보다 성능이 뛰어나기 때문에 누가 인간이고 누가 인공지능인지 쉽게 구별할 수 있을 것이다.
연구원들은 이것이 실제로 우리가 직면한 문제라고 말했습니다. 예를 들어, GPT-4의 지식 보유량이 "너무 풍부"하거나 너무 많은 언어를 마스터합니다. 우리는 모델이 이러한 상황을 피하도록 명시적으로 촉구하는데, 이는 어느 정도 효과적입니다.
참고자료
https://x.com/camrobjones/status/1790766472458903926
https://x.com/emollick/status/1790877242525942156
이 기사는 WeChat 공개 계정 "Xin Zhiyuan"(ID: AI_era) 에서 가져온 것입니다. 저자: Tao Zi Yongyong, 36 Krypton은 게시 권한을 받았습니다.




