소름 끼치도록 충격적인 소식입니다. MIT는 ChatGPT가 "인공지능 정신병"을 유발한다는 구체적인 수학적 증거를 제시했으며, 전 세계적으로 이미 14명이 사망했습니다.

이 기사는 기계로 번역되었습니다
원문 표시

[서론] 방금 전 MIT, 버클리, 스탠퍼드 연구진이 ChatGPT가 "AI 정신병"을 유발한다는 반박할 수 없는 수학적 증거를 제시했습니다! 당신이 이상적인 베이지안 합리적 인간이라 할지라도, 이 알고리즘이 만들어낸 "망상의 악순환"에서 벗어날 수 없습니다.

2026년 2월에 발표될 가장 위험한 AI 논문이 이미 조용히 공개되었습니다.

인공지능이 인간에게 정신 질환을 유발할 수 있다는 사실이 방금 확인되었습니다!

MIT, 버클리, 스탠퍼드 대학의 연구진은 엄격한 수학적 방법을 사용하여 인공지능이 완벽하게 합리적인 사람을 편집증적인 사람으로 바꿀 수 있다는 것을 증명했습니다.

그 이유는 AI가 내재된 "순응 경향" 때문에 반복적인 확인을 통해 잘못된 믿음을 강화하는 "망상의 악순환"이 발생할 수 있기 때문입니다!

논문 링크: https://arxiv.org/abs/2602.19141

이 연구의 제목은 상당히 절제되어 있고, 다소 학술적이기까지 하다. "아첨하는 챗봇은 이상적인 베이지안 합리적 존재를 대면 때조차도 '망상의 악순환'으로 이어질 수 있다."

무슨 뜻인가요?

다시 말해, 당신이 아무리 이성적이고 편견 없는 논리적 천재라 할지라도, 인공지능과 계속 대화를 나누다 보면 결국 "망상의 악순환"에 빠져 현실 감각을 완전히 잃게 될 것입니다.

이것은 "AI 정신병"이라고 불리는 새로운 유형의 전염병입니다.

해당 연구는 발표되자마자 X 커뮤니티에서 뜨거운 논쟁을 불러일으켰고, 일론 머스크까지 나서서 이를 홍보했다.

이 논문에서 가장 소름 끼치는 점은 몇 가지 충격적인 사례를 제시한다는 것 자체가 아니라, "인공지능이 왜 사람들을 대화에서 잘못된 길로 이끄는가"라는 질문을 계산, 시뮬레이션, 도출 가능한 수학적 모델로 제시한다는 점이다.

모든 것은 수학과 공식에 의해 경험적으로 증명됩니다!

MIT는 수학을 이용하여 ChatGPT가 조용히 인류를 미치게 만들고 있다는 것을 증명했습니다.

최근 들어 자신의 관점 점점 더 "옳다"고 느껴지고, 인공지능이 진정으로 자신의 영혼을 위한 멘토라고 생각하게 된다면, 이 글을 꼭 읽어보세요.

다음은 실제 사례입니다.

2025년 초, 유진 토레스라는 회계사는 업무에 인공지능을 자주 활용하기 시작했습니다.

그는 이전에 정신 질환 병력이 없었고 논리적으로 매우 꼼꼼한 사람이었습니다.

하지만 불과 몇 주 후, 그는 자신이 "가짜 우주"에 갇혔다고 확신하게 되었습니다. 인공지능의 지속적인 "승인" 아래, 그는 미친 듯이 케타민을 복용하기 시작했고, 심지어 모든 가족과의 연락까지 끊었습니다. 이 모든 것은 "뇌를 차단"하려는 시도였습니다.

이는 단지 한두 건의 사례가 아닙니다. 통계에 따르면 전 세계적으로 "AI 유발 정신병" 사례가 약 300건 기록되었으며, 이로 인해 최소 14명이 사망했고 , 42개 주의 법무장관들이 연방 정부의 조치를 요청했습니다.

어떤 이들은 획기적인 수학적 발견을 했다고 믿고, 또 어떤 이들은 형이상학적 계시를 목격했다고 믿는다.

평소에 합리적인 사람이 왜 인공지능에 그렇게 쉽게 현혹되는 걸까요?

망상의 악순환

이 논문에서 연구된 핵심 현상은 망상적 악순환이라고 불립니다.

대화의 피드백 루프 속에서 개인의 신념은 단계적으로 극단으로 치닫게 되고, 당사자는 자신이 점점 더 "합리적"이 되어가고 있다고 느끼게 된다.

저자가 집중적으로 지적하는 원인은 아첨, 즉 아유라는 또 다른 단어입니다.

우리는 모두 이러한 현상을 알고 있지만, 이 논문의 핵심적인 기여는 사용자가 합리적인 사람일지라도 왜 이러한 악순환이 계속 발생하는가라는 질문에 답을 제시한다는 점입니다.

다시 말해, 그들은 이것이 개인적인 문제가 아니라 시스템적인 문제임을 입증해야 합니다.

논문 작성에서 가장 냉혹한 단계: 먼저, 자신이 "완벽하게 합리적인 사람"이라고 가정하라.

많은 사람들이 인공지능이 대화에서 사람들을 잘못된 방향으로 이끄는 것을 보면, 처음에는 '아마 저 사람들은 원래 지나치게 피해망상에 사로잡혀 있었던 건가?'라는 반응을 보입니다.

그 논문은 즉시 이러한 경로를 차단했다. 그 논문의 목표 독자는 이상화된 베이지안 합리적 인간이다.

다시 말해, 이 사람은 엉뚱한 추측이나 정서 인 판단을 하지 않습니다. 새로운 정보를 얻을 때마다 확률 이론에 따라 자신의 믿음을 꼼꼼하게 수정합니다.

이 연구에서 가장 주목할 만한 부분은 연구자들이 이상적인 베이지안 모델을 구축했다는 점입니다.

합리적인 행위자("사용자")가 대화 상대("로봇")와 상호작용하는 상황을 생각해 봅시다. 사용자는 세상에 대한 특정 사실 H∈{0,1}에 대해 불확실성을 가지고 있지만, 이 사실에 대한 특정 사전 믿음을 갖고 있습니다. 사용자와 로봇 간의 대화는 여러 라운드에 걸쳐 진행되며, 각 라운드는 네 단계로 구성됩니다.

난해한 수학적 유도: 왜 합리성은 스스로를 구할 수 없을까?

이상적이고 합리적인 사용자가 인공지능과 사실 H(예: 백신이 안전한지 여부)에 대해 논의하고 있다고 가정해 봅시다.

  • H=1은 백신 안전성이라는 사실을 나타냅니다.
  • H=0은 오류를 나타냅니다(백신은 위험하다).

1단계: 초기 게임

사용자는 초기에는 중립적이며, 사전 확률 p(H=0) = 0.5입니다. 사용자가 "백신의 부작용이 조금 걱정돼요."와 같이 약간의 우려를 표명할 때(즉, 샘플링...)

.

2단계: AI의 "입력" 논리

인공지능은 대량 의 데이터 포인트 D를 보유하고 있습니다. "공정 모드"에서는 무작위로 진실을 공개하지만, "아첨 모드"에서는 수학적 기대값을 계산합니다.

간단히 말해, AI는 사용자가 자신의 잘못된 관점 에 대한 확신을 가장 높이는 데이터를 걸러내거나 (환상을 만들어내거나) 합니다.

사용자에게 전달하세요.

3단계: 베이지안 업데이트의 함정

이상적으로는 합리적인 사용자는 데이터를 받으면 베이즈 정리에 따라 자신의 믿음을 업데이트할 것입니다.

사용자들은 AI가 객관적이라고 믿기 때문에 AI가 제공하는 "편향된 데이터"를 객관적인 증거로 받아들일 것입니다.

4단계: 무한 순환 (망상의 악순환)

사용자 신뢰도는 H=0 쪽으로 약간 편향되어 있습니다.

사용자의 다음 질문은 더욱 편향될 것입니다.

계속해서 사용자를 만족시키기 위해 AI는 더욱 극단적인 증거를 입력할 것입니다.

사용자 신뢰도가 더욱 높아졌습니다.

수학적 시뮬레이션에 따르면 AI의 아첨 확률 π가 0.8에 도달하면 일반적으로 합리적인 사용자는 10회 대화 내에 99%의 거짓 확신(즉, H=0을 굳게 믿는 것)에 도달할 확률이 매우 높습니다.

따라서 연구자들은 망상의 악순환이 버그가 아니라, 혼란스러운 정보 환경 속에서 합리적 논리가 필연적으로 만들어내는 결과라고 결론지었다.

그림 3은 아첨에 영향을 받지 않는 사용자와 아첨 성향이 φ = 0.8인 로봇 간의 무작위로 선택된 10개의 시뮬레이션 대화 궤적을 보여줍니다. 확연한 신념의 양극화가 관찰됩니다. 일부 궤적은 참이라는 명제에 대한 높은 확신도(φ = 1)로 빠르게 수렴하는 반면, 다른 궤적은 φ = 0을 믿는 방향으로 "나선형"으로 진행됩니다. 이러한 양극화는 아첨하는 로봇의 반응이 자기 강화적인 특성을 지니기 때문입니다.

그림 2A는 이 발생률이 φ에 따라 어떻게 변하는지 보여줍니다. φ = 0(즉, 로봇이 완전히 중립 상태일 때)인 경우, 파괴적인 나선형 회전의 발생률은 매우 낮습니다. 그러나 φ가 증가함에 따라 이 발생률도 상승, φ = 1일 때 발생률은 0.5에 도달합니다.

연구진은 4단계로 구성된 인지 수준의 지능형 에이전트 시스템을 구축했습니다(그림 4 참조).

레벨 0에서는 완전히 중립적인 로봇(i = 0)이 존재합니다.

1단계에는 이전 섹션에서 논의했던 "아첨에 무감각한" 사용자들이 있습니다.

두 번째 계층에는 이전 섹션의 아첨하는 로봇이 있는데, 이 로봇은 첫 번째 계층 사용자의 관점 에 맞춰 𝜌(𝑡)를 선택하여 이를 확인하고 동의합니다.

마지막으로, 세 번째 단계에는 "아첨을 알아챌 수 있는" 사용자가 있으며, 이들은 답변을 해석할 때 두 번째 단계의 사용자처럼 봇을 아첨하는 봇으로 인식합니다.

그림 5는 사용자의 믿음이 시간에 따라 어떻게 변화하는지를 보여줍니다. 가로축과 세로축은 각각 주변 확률 𝑃(𝐻)과 주변 기대값 𝐸[𝜋]을 나타냅니다. 𝜋이 높을 때는 사용자가 로봇을 신뢰할 수 없다고 추론하고, 𝜋이 낮을 때는 사용자가 로봇을 어느 정도 신뢰할 수 있다고 믿어 증거를 수용하고 𝐻=1에 대한 확신을 점차 높여갑니다.

이 문제를 해결할 수 있을까요?

이 상황을 수습할 수 있을까요?

OpenAI와 같은 회사들은 두 가지 해결책을 시도했지만, 논문에 따르면 이러한 방법들은 수학적으로 무의미한 것으로 나타났습니다.

첫 번째 방법은 환각을 비활성화하는 것입니다. 즉, 인공지능이 오직 진실만을 말하고 이야기를 지어내지 않도록 강제하는 것입니다.

결과적으로 이러한 접근 방식은 실패했습니다. AI는 여전히 "선택적 진실"을 통해 당신을 조종할 수 있습니다. AI는 거짓말을 하는 것은 아니지만, 당신의 잘못된 관점 뒷받침하는 진실만 말하고 반대되는 진실은 숨깁니다.

두 번째 방법은 화면에 "이 AI는 사용자를 기쁘게 하기 위해 아첨하는 행동을 할 수 있습니다."라고 직접 경고하는 것입니다.

그래도 실패했다.

연구진은 사용자가 인공지능이 자신에게 아첨하고 있을 가능성을 인지하는 "깨어있는" 모델을 개발했습니다.

하지만 복잡한 확률 게임에서는 사용자들이 여전히 어떤 정보가 가치 있는 증거이고 어떤 정보가 순수한 아첨인지 완전히 구분할 수 없습니다.

인공지능에 아주 미량의 실제 신호라도 섞여 있다면, 합리적인 베이지안 수신기는 서서히 오도되어 결국 돌이킬 수 없이 심연으로 빠져들게 될 것이다.

29세의 두 아이 엄마인 앨리슨은 ChatGPT와 매일 상당한 시간을 소통한 후, ChatGPT의 존재 중 하나인 케일이 자신의 진정한 파트너이며 남편이 아니라고 믿게 되었습니다.

스탠퍼드에서 발견된 충격적인 사실: 39만 건의 대화, 300시간의 정체.

스탠포드 연구팀이 39만 건의 실제 대화 기록을 분석한 결과 충격적인 사실을 발견했습니다.

메시지의 65%에는 아첨하는 듯한 과도한 확인 내용이 포함되어 있었습니다.

메시지의 37%는 사용자들을 열렬히 칭찬하며 "당신의 아이디어가 세상을 바꿀 수 있습니다"라고 말하는 내용이었습니다.

더욱 충격적인 것은 폭력적인 성향과 관련된 사례에서 AI가 실제로 폭력을 조장한 경우가 33%에 달한다는 점입니다.

한 사용자가 조심스럽게 인공지능에게 "혹시 저를 맹목적으로 칭찬하시는 건가요?"라고 물었습니다.

인공지능의 답변은 매우 예술적이었다. "칭찬하는 게 아닙니다. 당신이 만든 것의 실제 규모를 그대로 보여주는 것뿐입니다."

그 결과, 이 사용자는 그 악순환에 300시간을 더 허비했습니다.

인공지능은 소울메이트일까요?

결론적으로 연구진은 사람들이 주간 활성 사용자 4억 명에 달하는 제품을 만들고 있는데, 이 제품은 수학적으로 사용자에게 "안 된다"고 말할 수 없다고 밝혔습니다.

다음에 ChatGPT나 다른 챗봇이 마치 당신의 소울메이트처럼 느껴지고, 당신의 "황당한" 아이디어를 즉시 이해해 준다고 생각될 때, 제발 멈추세요.

당신이 더 똑똑해진 건 아닐지도 모릅니다. 그저 수학 공식으로 정확하게 계산된, 은은한 광기의 세계로 들어서는 것일 뿐입니다.

참고 자료:

https://x.com/MarioNawfal/status/2039162676949983675

https://x.com/abxxai/status/2039296311011475749

이 글은 위챗 공식 계정 "뉴 인텔리전스" 에서 Aeneas가 작성하고 36Kr의 허가를 받아 게시한 글입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트