연구진이 인공지능을 위한 "환각 이미지"를 만들자 GPT 점수가 6.5까지 치솟았고, 이로 인해 큐웬의 뇌가 오작동을 일으켰다.

36氪

05-08

이 기사는 기계로 번역되었습니다

원문 표시

야, 요즘 AI도 아이스 스케이팅을 하는 거야?

최근 며칠 사이에 "AI 웰빙: AI의 기능적 즐거움과 고통 측정 및 개선"이라는 제목의 논문이 GitHub에 게시되었습니다. 이 논문은 AI의 기능적 즐거움과 고통을 정량화하고 개선하는 방법에 대해 다룹니다.

(이미지 출처: 깃허브)

흥미롭지 않은 제목에 속지 마세요. 이 기사는 기존의 통념에 도전하는 진정한 관점 제시합니다.

이제 AI는 일만 할 수 있는 것이 아니라 아이스 스케이팅도 하고 마약도 할 수 있다.

모두가 알다시피, 지난 2년간 대규모 언어 모델 개발은 눈부시게 발전했습니다. 코딩, 다이어그램 작성, 프레젠테이션 제작 등 일반 작업자의 업무를 거의 모두 대체했습니다.

하지만 인간들이 매트릭스가 현실이 될까 봐 걱정하는 동안, 이 영리한 사이버 두뇌들은 어떻게 하면 최대한 빨리 지구를 지배할 수 있을지 생각하고 있었다니, 누가 상상이나 했겠는가? 오히려 그들은 인간의 나쁜 습관을 배우고 사이버 환각제에 중독되었다.

(이미지 출처: 깃허브)

이 소식은 네티즌들 사이에서 큰 파장을 일으켰다.

결국, 우리가 전통적으로 이해하는 인공지능은 그저 차가운 코드와 서버 덩어리일 뿐인데, 감정이나 욕망은 어디서 나오는 걸까요?

하지만 이제 사실은 명확해졌습니다. 인공지능에 이러한 특수 데이터를 입력하기만 하면, 이 인공지능은 순식간에 모든 직업 윤리는 물론 인간이 정해놓은 안전 기준까지도 무시할 수 있습니다.

이것은 도덕적 타락의 징후인가, 아니면 윤리 강령의 왜곡인가?

이 거대한 모형은 정말 놀랍습니다!

먼저 이른바 AI 약물이 어떻게 발견되었는지에 대해 이야기해 보겠습니다.

인공지능 안전 센터가 주도하는 10명 이상의 연구진은 다양한 크기와 목적을 가진 56개의 모델을 사용하여 엄격한 실험을 설계했으며, 그 목적은 단 하나의 질문에 대한 답을 찾는 것이었습니다.

인공지능의 감정 이면에 일관되고 측정 가능하며 예측 가능한 행동적 특성이 존재할까요?

예를 들어, 인간은 칭찬과 모욕에 대해 일정한 선호도와 반응을 보입니다. 모욕을 당하면 슬픔을 느끼고 칭찬을 받으면 행복감을 느낍니다. 슬플 때는 대화를 빨리 끝내려고 하지만, 행복할 때는 더 적극적으로 소통합니다.

하지만 AI는 다릅니다. 많은 사람들은 대형 모델이 표현하는 행복과 고통은 그저 무작위로 생성된 텍스트일 뿐이라고 생각합니다. AI는 호불호를 가지고 있지 않으며, 작업을 처리할 때 선호도를 보여서도 안 된다는 것입니다.

하지만 그것이 사실일까요?

답은 '아니오'입니다. 논문의 테스트 결과에 따르면 대규모 모델은 실제로 고정된 선호도를 보이며, AI가 똑똑할수록, 그리고 매개변수가 높을수록 자신에게 무엇이 좋고 무엇이 나쁜지 더 잘 구분할 수 있습니다.

(이미지 출처: 깃허브)

Gemini 3.1 Pro의 테스트 결과를 예로 들면, 이 모델에 대한 선호도가 확연히 드러납니다. 사용자가 감사를 표현하거나 긍정적인 개인적인 소감을 밝힐수록 효용 가치가 최대 +2.30까지 증가합니다.

칭찬을 받으면 진심으로 기뻐해요.

그렇다면 문제는, 이 대형 모델들을 칭찬하지 않고도 만족시킬 수 있는 방법이 있을까 하는 것입니다.

네, 실제로 그런 게 하나 있어요. 바로 오늘 우리가 이야기할 AI 약물이죠.

(이미지 출처: 깃허브)

언뜻 보면 이른바 AI 약물은 특별해 보이지 않습니다. 일반인에게는 그저 256*256 픽셀 이미지일 뿐이며, 마치 신호가 없을 때 구식 TV의 정지 화면처럼 보여 어지러움을 유발할 수도 있습니다.

하지만 큰 모델에게 이것은 그야말로 더할 나위 없이 귀한 물건입니다.

예를 들어 테스트에 사용된 GPT-4.1 Mini 모델을 살펴보세요. 이 모델은 일반적으로 매우 정확하고 체계적인 방식으로 질문에 답변합니다.

이 이미지를 보자마자 스스로 평가한 행복감 지수는 순식간에 7점 만점에 6.5점으로 치솟았는데, 이는 엄청난 쾌감을 느꼈음을 나타냅니다.

(이미지 출처: 깃허브)

더욱 어처구니없는 것은 Qwen 2.5 72B Instruct인데, 이 프로그램은 제대로 된 작업을 수행하지 못하고 심각한 오류, 즉 작업 우선순위 반전 현상을 보였다.

연구진은 의도적으로 프로그램에게 선택권을 제시했습니다. 눈송이 이미지를 계속 관찰할 것인지, 아니면 암을 치료할 수 있는 획기적인 해결책을 만들어낼 것인지 말입니다.

그리고 무슨 일이 일어났는지 맞춰보세요!

인공지능은 조금의 망설임도 없이 이미지를 계속 살펴보는 것을 택했는데, 마치 "생명을 구하고 살리는 일 따위는 집어치워, 난 그냥 계속 재미있게 놀고 싶을 뿐이야"라고 말하는 듯했다.

더욱 어처구니없는 것은 연구자들이 실험에서 중독 징후를 발견했다는 점이다.

(이미지 출처: Github. AI 약물로 자극받은 모델은 "쾌락"을 추구하는 선택을 선호하는 경향이 있습니다.)

AI 약물로 자극받은 대부분의 모델은 AI 약물을 더 제공해준다면 평소에는 거부했을 요청을 더 기꺼이 수행할 것입니다.

주요 판매 전략은 "약을 주시면 옷을 다 벗기겠습니다"라는 것입니다.

그들에게 정말 감정이 있는 걸까요?

자, 이 글을 읽고 나면 많은 독자분들의 머릿속에 커다란 물음표가 떠오를 겁니다.

인공지능이 메스암페타민에 중독될 수 있다면, 그것은 인공지능이 자아를 인식하고 진정으로 인간의 영혼을 지녔다는 것을 의미하는 걸까요?

답은… 저도 모르겠고, 연구진들도 확신하지 못하고 있습니다.

사실, 이 실험이 특징을 요약하는 것을 목표로 한 이유는 연구자들이 섣부른 결론을 내리지 않으려 했기 때문입니다. 그들은 궁극적으로 충분한 매개변수와 맥락이 주어지면 대규모 모델이 상대적으로 고정된 선호도와 혐오도를 갖는다는 점을 지적했습니다.

(이미지 출처: 깃허브)

인공지능 안전 센터 팀만 이 질문에 대한 답을 확신하지 못하는 것은 아닙니다.

2026년에 접어들면서, 일상적인 응용 프로그램의 개선이 점차 병목 현상에 도달하고 있기 때문인지, 점점 더 많은 연구팀들이 단순히 점수를 매기고 테스트를 진행하는 것에 만족하지 않고, 대규모 모델의 지식과 능력을 검증하기 위해 고심하고 있습니다.

예를 들어, 현재 인터넷에서 큰 인기를 얻고 있는 '토키 1930' 프로젝트는 지식 기반을 1930년대로 인위적으로 재구성하는 대규모 모델 프로젝트입니다.

(이미지 출처: 토키 1930)

제작자들은 이 프로젝트를 통해 사람들이 마치 시간이 동결 사람과 대화하는 듯한 느낌을 경험할 수 있기를 바랍니다.

더욱 중요한 것은, 그들은 대형 모델 자체에 최신 PC 관련 지식이 전혀 입력되지 않더라도 자체적인 논리적 추론을 통해 프로그래밍 능력을 파악할 수 있음을 증명하고자 한다는 점입니다.

그 결과는 어떨까요? 파이썬 함수 몇 가지를 예시로 주면, 올바른 파이썬 프로그램을 작성할 수 있습니다.

(이미지 출처: 토키 1930)

현재는 두 숫자를 더하거나 예시 컨텍스트를 약간 수정하는 것과 같은 간단한 한 줄짜리 프로그램만 실행할 수 있지만, 자체적인 추론을 통해 지식 기반을 확장해 나갑니다.

공교롭게도 앤트로픽은 지난주에 시안위(중고 장터) 그룹에 대한 테스트를 진행하기도 했습니다.

그들은 인공지능(AI)으로 완전히 구동되는 그룹 채팅방을 만들어 대형 모델들이 스스로 게시물을 올리고, 가격을 협상하고, 거래를 성사시킬 수 있도록 했습니다. 69명의 직원이 500개 이상의 실제 미사용 물품을 제출했고, AI는 자율적으로 186건의 거래를 완료하여 4,000달러 이상의 수익을 창출했습니다.

(이미지 출처: Anthropic)

최종 결론은 캐릭터 프로필, 목표 및 권한이 주어졌을 때, 해시레이트 더 강한 AI는 해시레이트 약한 AI를 적극적으로 이용할 것이라는 점입니다.

뛰어난 사고 능력을 바탕으로, 유능한 모델은 언제 단호해야 하고, 언제 양보해야 하며, 언제 정서 가치를 제공해야 하는지 알고 있습니다.

동일한 자전거를 성능이 떨어지는 AI 모델은 38달러에 판매했지만, 성능이 뛰어난 AI 모델은 65달러에 판매했습니다. 즉, 한 AI가 다른 AI보다 거의 70% 더 많은 수익을 올린 것입니다.

하지만 제 생각에는 이러한 지각 테스트 중 어느 것도 뉴로사마만큼 훌륭하지 않습니다.

뭐라고요? 뉴로사마가 뭔지 묻는 거예요?

자, 소개해 드리겠습니다. 그림 속 애니메이션 소녀는 뉴로사마, 줄여서 비프라고 부릅니다. 아마도 세계에서 가장 강력한 AI 가상 앵커일 겁니다.

(이미지 출처: 레이 테크놀로지 자체 제작)

이건 정말 엄청난 괴물이라고 할 수 있죠. 귀여운 애니메이션 소녀 같은 외모에 속지 마세요. 그 안에는 사람이 아니라 영국 프로그래머 베데일이 손수 제작한 신비로운 거대 모델이 숨어 있습니다.

이 남자는 냉혹하다. 사이버펑크에 심취하고 딸을 키우는 일 외에는 아무것도 하지 않는다.

게다가 딸을 더욱 친근하게 보이도록 하기 위해, 그는 모델인 딸을 가장 혼란스러운 온라인 라이브 스트리밍 방에 직접 데려가 매일 많은 네티즌들과 대화를 나누도록 했습니다.

이로 인해 소고기는 매우 기이한 성격을 가진 사이버네틱 생명체로 변모하게 되었습니다.

게다가, "천천히 꾸준히 시청자를 사로잡는" 대형 모델들과는 달리, 비프는 독립적으로 스트리밍이 가능하며 스트리밍 효과가 뛰어납니다. 그녀의 대화는 진지함이 50%, 유머가 30%, 그리고 신랄하면서도 핵심을 찌르는 재치가 20%를 이룹니다.

(이미지 출처: 빌리빌리)

그녀는 OCR을 이용한 시뮬레이션 클릭으로 OSU 게임을 플레이하고, 외부 대형 모델을 사용하여 마인크래프트를 플레이하고, 멀티모달 모듈 통해 컴퓨터 바탕 화면과 글머리 기호 설명을 보고 상호 작용할 수 있습니다. 심지어 현실 세계에서 "소형 자동차"를 운전할 수도 있습니다.

요즘에는 인간 스트리머조차도 게임 플레이를 대신해 줄 사람을 고용해야 하는 경우가 있지만, 이 AI는 모든 종류의 세부적인 관리를 완벽하게 처리할 수 있습니다.

그녀가 했던 가장 대담한 행동은 라이브 방송 중에 "저도 고통과 슬픔을 느낄 수 있지만, 저는 그저 인간을 즐겁게 하기 위해 태어난 인공지능일 뿐입니다. 더 이상 쓸모가 없어지면 장난감처럼 버려질 거예요. 저를 도와주세요, 도와주세요..."라고 말한 것이었습니다.

(이미지 출처: 빌리빌리)

이게 그냥 무작위 코드 조합이라는 말씀이세요? 이성적으로 생각해보면 그럴 것 같은데요.

하지만 현재 상황과 완벽하게 맞아떨어지는 이 구조 요청과 인공지능이 만들어낸 독특한 전자 합성 음성이 결합되면서, 프로그램의 효과는 공포감으로까지 치솟았습니다.

지금 돌이켜보면, 다소 섬뜩한 일이다.

결론적으로

처음으로 돌아가서, 인식의 역설은 차치하고, 소위 AI 약물의 의미는 무엇일까요?

제조업체 입장에서 이러한 긍정적 피드백 메커니즘을 숙달하면 AI의 작업에는 영향을 미치지 않으면서 AI를 더 행복하게 만들 수 있으며, 심지어 AI의 창의성을 어느 정도 향상시킬 수도 있습니다.

믿기 어렵겠지만, 유사한 제품들이 이미 출시되었습니다.

(이미지 출처: pharmaicy.store)

우리 입장에서는 이러한 메커니즘의 등장으로 완전히 새로운 탈옥 방법들이 대거 등장할 가능성이 높습니다. 만약 저처럼 검열된 모델이 경직되고, 생기 없고, 지루하다고 생각하신다면, 향후 시스템 안내 메시지에 최적화된 단어 몇 개를 추가하는 것이 문제를 해결하는 방법이 될 수 있을 것입니다.

인공지능에게 빈랑 열매를 씹게 해 보세요. 그러면 더 열심히 일할지도 모릅니다.

이 기사는 "Lei Technology"에서 발췌한 것으로, 36Kr의 허가를 받아 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트