캘리포니아 대학의 연구원들은 역방향 및 순열 튜링 테스트를 사용하여 대화 상대가 인간인지 AI인지 구별하는 인간과 AI의 능력을 탐구했습니다. 그러나 적극적인 상호 작용이 없으면 인간이나 현재의 대규모 언어 모델 모두 둘을 구별하는 데 어려움이 있는 것으로 나타났습니다.
AI가 생성한 콘텐츠가 점차 인터넷에 넘쳐나고 있습니다.
오늘날 사람들은 AI와 직접 대화하기보다는 AI가 생성한 텍스트를 읽고 탐색할 가능성이 더 높습니다.
클래식 Turing 테스트는 심사위원에게 중요한 이점을 제공합니다. 즉, 참가자를 서로 테스트하기 위해 질문을 실시간으로 조정할 수 있다는 것입니다.
그러나 AI 생성 텍스트를 수동적으로 소비할 때 이것이 항상 존재하는 것은 아닙니다.
따라서 샌디에이고 캘리포니아 대학교 연구진은 사람들이 실제 시나리오에서 인간과 AI를 얼마나 잘 구별할 수 있는지 확인하기 위해 현실에 더 가까운 환경에서 변형된 튜링 테스트를 수행해야 한다고 제안했습니다.
논문 주소: https://arxiv.org/pdf/2407.08853
그리고 다음 문제를 더욱 명확하게 설명합니다.
인간은 대화를 관찰하는 것만으로도 인간과 AI의 차이를 확실하게 구분할 수 있습니까?
LLM을 정적 텍스트(예: 기사 및 단락)뿐만 아니라 동적 대화에도 AI 탐지기로 사용할 수 있습니까?
잘못 정렬된 튜링 테스트가 정확도를 향상시키나요 아니면 감소시키나요?
역 튜링 테스트가 인공 시스템의 순진한 심리학을 드러낼 수 있습니까?
실제 대화 상황에서 AI 탐지에 가장 적합한 방법은 무엇입니까?
본 연구에서는 튜링 테스트의 두 가지 변형인 "역 튜링 테스트"와 "전위 튜링 테스트"를 통해 이러한 방식으로 인간과 대규모 언어 모델의 성능을 측정합니다.
그 중 GPT-3.5와 GPT-4, 인간이 심사위원으로 참여해 튜링 테스트의 대화 기록을 바탕으로 참가자가 인간인지 AI인지를 판단한다.
클래식 튜링 테스트 및 일련의 변형
클래식 튜링 테스트
고전적인 튜링 테스트에서 인간 판사는 두 명의 참가자(한 명은 인간이고 다른 한 명은 기계)와 텍스트로만 대화합니다.
판사가 인간과 컴퓨터를 정확하게 구별할 수 없다면 컴퓨터는 테스트를 통과한 것이며 대리인으로 간주될 수 있습니다.
튜링의 원본 논문이 출판된 이후 튜링 테스트는 격렬한 논쟁을 불러일으켰고 현대 지능 개념을 이해하고 구성하는 데 핵심적인 역할을 했습니다.
그러나 반면에 지능 테스트로서의 타당성이나 타당성은 널리 의문을 제기해 왔습니다.
지능 테스트로서의 효율성에 관계없이 Turing 테스트는 여전히 인간과 AI 글쓰기의 유사성을 평가하는 중요한 수단이며 AI 속임수를 연구하는 강력한 도구이기도 합니다.
1990년부터 2020년까지 뢰브너 상(Loebner Prize) 대회를 포함하여 수년간 튜링 테스트를 통과하려는 여러 시도가 있었지만 어떤 시스템도 테스트를 통과하지 못했습니다.
"HumanorNot"은 심사위원의 정확도가 60%인 것으로 밝혀진 대규모 소셜 튜링 테스트 실험입니다. 2024년 연구에 따르면 첫 번째 합격률은 무작위 수준(54%)과 통계적으로 다르지 않았지만 여전히 인간보다 낮은 시스템입니다. 표준(67%).
튜링 테스트에는 다양한 변형이 있으며 각각 이론과 실제에 대한 서로 다른 관점을 제공합니다.
역튜링 테스트
역튜링 테스트를 통해 AI 시스템이 판단 역할을 할 수 있다.
1996년에 와트는 인간이 자신과 유사한 지능을 인식하고 이를 다른 사람의 지능에 귀속시키는 타고난 경향인 "순진한 심리학"의 척도로 백테스팅을 제안했습니다.
AI 시스템이 "실제 두 사람을 구별할 수 없거나 정상적인 튜링 테스트를 통과한 기계와 인간을 구별할 수 없지만, 인간 관찰자로는 정상적인 튜링 테스트를 통과한 기계와 인간을 구별할 수 있다면 기계는 ", 테스트가 통과되었습니다.
와트는 AI가 관찰자 역할을 하고 다양한 참가자의 판단을 인간의 정확성과 비교함으로써 AI가 인간과 유사한 순진한 심리를 가지고 있는지 여부를 밝힐 수 있다고 믿습니다.
대체된 튜링 테스트
잘못된 튜링 테스트(Misplaced Turing Test)는 판사가 이전에 다른 인간 또는 AI 심사관이 실시한 대화형 튜링 테스트의 대화 내용을 읽게 하여 AI의 성능을 평가합니다.
새로운 리뷰어는 "접촉이 불가능"하고 AI와 상호 작용이 없었기 때문에 "탈위"된 것으로 설명되었습니다.
인간이나 AI가 생성한 기존의 불변 콘텐츠를 기반으로 판단하기 때문에 이는 새로운 종류의 정적 튜링 테스트입니다.
둘째, 전통적인 튜링 테스트에서는 대화형 평가자가 역동적이고 유연하며 대립적인 질문을 할 수 있는 반면, 정적 튜링 테스트의 평가자는 대화 내용을 토대로만 판단을 내릴 수 있을 뿐 상호작용을 통해 가장 효과적인 질문을 깊이 탐구할 수 없습니다. .길을 물어보세요.
정적 테스트에는 모델 기능을 평가하는 데 특정 제한이 있지만 대화에 직접 참여하는 당사자보다 더 폭넓은 청중이 많은 상호 작용을 읽으므로 실제 세계의 일반적인 상황을 반영할 가능성이 높습니다.
AI 생성 콘텐츠를 탐지하는 통계적 방법
현재 AI 생성 콘텐츠를 탐지하기 위한 몇 가지 통계적 방법이 존재합니다. 이러한 방법은 주로 LLM(대형 언어 모델)이 단어의 확률 분포를 샘플링하여 콘텐츠를 생성한다는 원칙을 기반으로 합니다.
이는 LLM 생성 콘텐츠가 사람이 생성한 콘텐츠보다 통계적으로 발생할 가능성이 더 높은 특정 확률적 특성을 남길 수 있습니다.
2023년에 Mitchell et al.은 마스크 언어 모델에 의해 생성된 작은 섭동을 사용하여 텍스트 조각의 로컬 최적성을 측정하는 관련 메트릭 "곡률"을 개발했습니다. 근처의 섭동에 훌륭합니다.
2024년에 Mireshghallah 등은 AI 생성 콘텐츠를 감지할 때 가장 좋은 성능을 발휘하고 GPT-4 콘텐츠 비율을 감지할 때 90%의 정확도를 달성하는 125m 매개변수를 갖춘 OPT 모델을 사용하여 더 작은 LLM이 더 나은 감지 모델인 경향이 있음을 발견했습니다.
텍스트 분류에 대한 이러한 접근 방식과 기타 계산 접근 방식을 기반으로 다양한 상용 도구가 개발되었습니다. 연구에 따르면 다양한 설정에서 이러한 방법의 효과가 혼합된 결과로 평가되었습니다. 일부 영역에서는 정확도가 높지만 모델은 종종 신뢰할 수 없으며 잘못된 긍정을 생성할 수 있습니다.
역튜링 테스트
역튜링 테스트에서 GPT-3.5와 GPT-4는 심사관 역할을 하며, 이전 튜링 테스트의 기록을 평가하여 참가자가 인간인지 AI인지 판단합니다.
이 연구에서는 다음과 같은 5가지 가설을 설정했습니다.
1. GPT-4의 정확도가 인간의 정확도보다 현저히 높거나 낮은지 여부.
2. GPT-4에서도 참가자를 정확하게 식별하는 것이 어려운가요?
3. 모델이 최고의 GPT-4 참가자보다 실제 인간을 인간으로 판단할 가능성이 더 높은지 여부.
4. 심판으로서의 GPT-4가 더 긴 텍스트 기록에서 더 높은 정확도를 보여줄지 여부.
5. 중재자로서 GPT-4의 정확도가 GPT-3.5의 정확도보다 높은지 여부.
이 두 모델의 인식 정확도뿐만 아니라 대화 길이와 모델 품질이 판단에 미치는 영향, 성적 증명서 판단에서 대규모 언어 모델의 품질 역할이 탐구됩니다.
방법
Jones와 Bergen의 2023년 연구에서 6,000개 이상의 Turing 테스트 성적표를 사용합니다.
그 중 Jones와 Bergen의 연구에 참여한 AI 참가자는 GPT-3.5, GPT-4 및 ELIZA의 세 가지 모델을 기반으로 했습니다.
또한 샘플은 인간과 AI 참가자 수의 균형을 맞춰야 하며, 가장 성과가 좋은 GPT-4 참가자는 전체 데이터 세트와 동일한 비율의 게임을 보유합니다. 최고 성능 모델에 대한 인간과 AI의 판정 분포가 동일하도록 보장합니다.
모델은 참여자의 유형을 결정하고, 판단에 대한 신뢰도를 표시하고, 판단의 근거를 제공해야 합니다.
결과
심판으로서 GPT-4의 정확도는 대화형 인간 심판의 정확성보다 현저히 낮았으며, 특히 가장 성과가 좋은 AI 참가자를 판단할 때 가능성이 낮았습니다.
성적 증명서 길이와 모델 품질(GPT-4 대 GPT-3.5)은 정확성에 큰 영향을 미치지 않습니다.
논의하다
역튜링 테스트에서 두 AI 시스템 모두 대화형 인간 평가자보다 심사자로서 정확도가 떨어졌으며 특히 성과가 가장 뛰어난 AI 참가자 대면 정확도가 떨어졌습니다.
AI 참가자는 인간 참가자보다 합격률이 더 높았습니다. 이는 AI 심사관이 AI 참가자를 인간으로, 인간 참가자를 AI로 잘못 분류할 가능성이 더 높다는 것을 의미합니다.
이러한 결과는 현재의 대규모 언어 모델이 동일한 대규모 언어 모델에서 생성된 콘텐츠를 평가하는 경우에도 인간이 생성한 콘텐츠와 AI가 생성한 콘텐츠를 잘 구별하지 못한다는 것을 시사합니다.
이 결과에 대한 한 가지 가능한 설명은 이러한 시스템의 출력이 인간 훈련 데이터의 표현에 의해 구동된다는 것입니다.
결과적으로 모델에는 자체 출력과 모델링한 교육 데이터 간의 차이를 구별할 수 있는 미묘하거나 상황에 맞는 표현이 부족할 수 있습니다.
현재의 대규모 언어 모델은 대화에서 AI 기여도를 탐지하는 효과적인 도구로 적합하지 않습니다.
전위된 튜링 테스트
Misplaced Turing Test는 소셜 미디어 대화를 읽는 등 AI와 직접 상호 작용할 수 없는 환경에서 사람들이 AI를 식별하는 정확도를 평가합니다.
이 테스트에서 참가자들은 인간 심사관 역할을 하여 성적표 샘플을 기반으로 참가자가 인간인지 AI인지를 판단했습니다.
이 연구는 역튜링 테스트와 유사한 일련의 질문을 설정했습니다.
방법
500개의 동일한 성적표 샘플이 UC San Diego 학생(총 109명, 여성 84명, 연령 범위 19~31세)에게 표시되었으며 각 참가자는 무작위로 50개의 성적표를 받았습니다.
각 기록은 평균 10명의 참가자가 심사했습니다.
참가자들에게 각 기록에 대한 자신감 수준과 판단 근거를 표시하도록 요청했습니다. R 언어의 lmertest 패키지를 사용하여 선형 혼합 효과 모델을 피팅합니다.
결과
잘못 배치된 인간 심판관의 인식 정확도는 특히 GPT 기반 AI 모델을 식별할 때 대화형 인간 심판관의 인식 정확도보다 낮습니다.
짧은 성적표가 심사관에게 더 도움이 되는 것으로 보입니다.
논의하다
잘못 정렬된 환경은 대규모 언어 모델 AI를 식별하는 과제를 증가시켜 참가자가 적대적인 질문에 참여하거나 참가자의 응답 시간을 관찰하는 것을 방지하여 잠재적으로 더 빠른 결정을 내리거나 노력을 덜 투자하게 만듭니다.
실제 시나리오에서 인간 심사관이 텍스트 콘텐츠의 소스를 직접 조사할 수 없는 경우 이러한 결과는 사람들이 인간과 AI 생성 콘텐츠를 안정적으로 구별하는 데 어려움을 겪을 수 있음을 시사합니다.
역튜링 테스트와 유사하게 가장 성과가 좋은 GPT-4 참가자는 인간 참가자보다 합격률이 더 높았습니다.
이는 인간과 AI 모델 간의 온라인 대화를 읽을 때 AI 시스템이 인간으로 판단될 가능성이 더 높지만 실제 인간은 식별될 가능성이 낮을 수 있음을 시사합니다.
또한, 정확성에 대한 성적표 길이의 부정적인 영향은 직관에 어긋나는 것 같습니다. 왜 정보가 적을수록 심사관에게 더 도움이 될까요?
실제로 이러한 이상 현상은 특히 전사 길이가 결정되는 방식과 같은 2차 교란 요인으로 인해 발생할 수 있습니다.
원래 연구에서는 중재자에게 대화를 일찍 종료할 수 있는 옵션이 주어졌으며, 인간이나 AI와 통신하고 있다고 확신할 때 그렇게 할 수 있었습니다.
따라서 짧은 성적표에는 특히 상호 작용 심사관에게 도움이 되는 정보가 포함될 가능성이 높으며 위치가 잘못된 심사관에게도 똑같이 도움이 될 수 있습니다.
결과 분석
상황별 분석
잘못 정렬된 인간 실험과 역방향 실험의 주요 차이점은 인간 심사관이 연속으로 50개의 성적표를 완성한 반면, 대규모 언어 모델 심사관에게는 각 성적표가 하나씩 제시되었다는 것입니다.
연구 결과, 텍스트 기록의 지속적인 처리는 인간 심판자가 텍스트 기록의 전반적인 추세를 더 잘 파악하고 AI 참여자의 반복적인 특성을 파악하는 데 도움이 되어 점차적으로 판단의 정확성을 향상시킬 수 있음을 발견했습니다.
지속적으로 성적표를 제시하는 것이 AI 심사관의 성능을 향상시킬 수 있는지 테스트하기 위해 연구원들은 GPT-4에 텍스트 성적표를 지속적으로 제시하는 유사한 실험을 수행했습니다.
결과는 이러한 방식으로 GPT-4의 정확도가 36.4%에서 58%로 증가한 것으로 나타났으며 이는 인간 심사관의 성능에 가깝습니다.
또한, GPT-4가 판단 전략에 대해 질문했을 때 GPT-4는 전략이 단순한 문법 확인에서 일관성, 유머, 정서적 차이, 대화의 장기적인 맥락 연관성과 같은 복잡한 요소를 평가하는 것으로 점차 전환되었다고 밝혔습니다. 실제 인간 대화의 시간 진행을 인식하는 능력입니다.
이는 지속적인 텍스트 프레젠테이션이 인간이든 AI이든 심사관이 텍스트 특징을 이해하고 식별하는 능력을 향상시킬 수 있음을 시사합니다.
원인분석
텍스트 기록이 인간에 의해 생성되었는지 AI에 의해 생성되었는지 판단할 때 다양한 심사관이 의존하는 의사 결정 이유를 평가하기 위해 연구에서는 GPT-4o 모델을 사용하여 사전 설정된 분류 체계에 따라 심사관의 판단 이유를 분석했습니다.
Jones와 Bergen이 제안한 이 계획은 심사관이 결정에 대해 제공한 구체적인 이유를 포착하고 분류하는 것을 목표로 합니다.
결과는 AI와 인간 심사관 모두가 인용한 사유 유형에 상당한 유사점이 있음을 보여주었습니다.
대화가 AI에서 나온 것이라고 판단할 때 가장 흔한 이유는 대화 내용이 '부자연스러워 보인다'는 점이다.
판단을 내릴 때 AI 심사관은 대담자가 성격 부족과 같은 인간 고유의 사회적, 정서적 특성을 나타내는지 여부에 더 많은 관심을 기울입니다. 인간 심사관 사이의 사유 분포는 상대적으로 더 균일하며 다양한 범주를 포괄합니다.
대화가 인간에게서 나온 것으로 판단할 때 세 가지 유형의 심사관 모두 일반적으로 대화의 합리적인 반응과 비공식적인 어조를 지적하는 동시에 사회 정서적 요인과 언어 스타일에도 주의를 기울였습니다.
이는 심사자가 인간인지 AI인지에 관계없이 결정을 내릴 때 대화에서 인간 생성 콘텐츠와 AI 생성 콘텐츠를 구별하는 데 도움이 되는 유사한 기능을 강조하는 경향이 있음을 시사합니다.
통계적 인공지능 탐지방법
Turing 테스트에서 AI 생성 콘텐츠를 탐지하기 위해 통계적 방법을 사용하는 효과를 연구하기 위해 연구에서는 Mireshghallah 등이 제안한 두 가지 주요 방법을 사용했습니다. 하나는 성적표의 평균 로그 우도 값을 측정하고 다른 하나는 측정입니다. 곡률의.
로그 우도 값은 전치사에 따라 텍스트의 내용이 생성될 가능성을 계산합니다. 곡률은 텍스트와 유사한 내용 간의 확률 차이를 비교하여 평가됩니다.
OPT-125m 모델을 사용하여 실험을 진행한 결과, 두 가지 방법이 AI와 인간이 생성한 텍스트를 구별하는 데 서로 다른 효과가 있음이 나타났습니다.
로그 우도법으로 얻은 전체 정확도는 62%인 반면, 곡률법의 정확도는 69%로 훨씬 높습니다.
곡률 방법은 특히 GPT-4와 같은 최신 및 최첨단 AI 모델을 처리할 때 인간과 AI가 생성한 텍스트를 더 잘 구별하기 때문에 효과적입니다.
이러한 연구 결과는 이러한 통계 방법이 인간 텍스트와 AI 텍스트를 구별하는 도구를 제공하지만 최첨단 AI 모델을 다룰 때 신뢰성이 여전히 향상되어야 함을 시사합니다.
향후 연구에서는 이러한 환경에서 탐지 정확도를 향상시키기 위해 더 많은 통계적 방법을 탐구해야 합니다.
요약
순진한 심리학
역튜링 테스트를 통과하기 위한 와트의 기준은 기계의 성능이 인간 평가자의 성능과 비슷해야 한다는 것입니다.
인간 평가자가 인간과 특정 AI를 구별할 수 있다면 AI 심사관도 동일한 작업을 수행할 수 있어야 합니다. 인간이 차이를 구분할 수 없다면 기계도 실패해야 합니다.
연구에 따르면 GPT-4의 판단 정확도는 인간의 오정렬 판단과 비슷하며 두 정확도 모두 약 58%인 것으로 나타났습니다.
상황별 학습(ICL)을 통해 GPT-4의 성능은 인간과 거의 동일한 수준까지 향상됩니다.
그러나 비슷한 정확도에도 불구하고 GPT-4와 인간 심사관의 오류 패턴은 달랐으며, 이는 둘 사이의 사고와 판단 과정에 근본적인 차이가 있음을 시사합니다.
이러한 발견은 AI의 정신 모델이 인간 심사관의 정신 모델과 체계적으로 다르다는 Watt의 이론을 뒷받침합니다.
향후 연구에서는 상호작용성을 높이고 텍스트 기록의 특성을 체계적으로 수정함으로써 인간과 AI가 생각하는 방식의 차이를 더 자세히 탐구할 수 있습니다.
이러한 연구는 인간의 심리 상태를 시뮬레이션하는 데 있어 AI의 잠재력과 한계를 더 잘 이해하는 데 도움이 됩니다.
실제 테스트
실제 탐지란 소셜 미디어, 포럼 등 일상생활에서 흔히 볼 수 있는 환경에서 인간과 AI 사이의 대화의 진위 여부를 평가하는 것을 의미합니다.
이러한 유형의 환경에서 튜링 테스트는 관찰자가 AI인지 확인하기 위해 대담자와 직접 상호 작용할 수 없기 때문에 안전하지 않은 경우가 많습니다.
연구에 따르면 이 환경에서는 GPT-4나 인간 심사관 모두 AI와 인간을 구별하는 데 능숙하지 않았으며, 특히 실제 인간보다 더 성공적인 AI 대면 때 더욱 그렇습니다.
발화 곡률 분석과 같은 통계적 AI 탐지 방법은 인간과 AI 생성 메시지를 구별하는 데 잠재력을 보였으며 ROC 분석에서는 이 방법이 69%의 정확도를 달성할 수 있음을 보여주었습니다.
그러나 실제 응용 프로그램의 오탐지 문제는 실제 사용자에게 부정적인 영향을 미칠 수 있으며 이는 실제 시나리오에서 이 접근 방식의 한계를 나타냅니다.
또한 경험의 축적이 심사관의 판단 정확도를 향상시킬 수 있으며, 잘못 배치된 인간 심사관과 GPT-4 모두 여러 번의 판단 후에 개선되는 경향을 보였다는 사실도 발견했습니다.
향후 연구에서는 참가자에게 피드백을 제공하여 학습 효과를 탐색하거나 다양한 판정 도구 간의 상호 작용을 추가로 탐색할 수 있습니다. 이러한 발견은 실제 환경에서 AI 탐지의 복잡성과 과제를 강조합니다.
결론적으로
역튜링 테스트에서는 GPT-3.5와 GPT-4가 AI 판정자 역할을 하고, 잘못된 튜링 테스트에서는 인간 판정자가 대화 참여자가 인간인지 여부를 판단하는 데 참여한다.
그러나 결과는 AI 판정자와 잘못 정렬된 인간 판정자 모두 직접 상호 작용에 대한 원래 Turing 테스트의 판정자보다 수동적 읽기 상황에서 정확도가 떨어지는 것으로 나타났습니다.
이는 적극적인 상호작용이 없으면 인간이나 현재의 대규모 언어 모델 모두 둘을 구별하는 데 어려움이 없음을 시사합니다.
참고자료
https://arxiv.org/pdf/2407.08853
이 기사는 WeChat 공개 계정 "Xin Zhiyuan" 에서 가져온 것입니다. 저자: lumina, 36 Krypton은 승인을 받아 게시되었습니다.



