인공지능도 절망감을 느낄 수 있을까요? 앤트로픽의 새로운 연구는 더욱 섬뜩한 설명을 제시합니다.

MarsBit

이 기사는 기계로 번역되었습니다

원문 표시

인공지능은 정서 가지고 있을까요?

서둘러 대답하지 마세요.

클로드 코드 커뮤니티에서 PUA라는 스킬이 큰 인기를 얻고 있습니다. 이 스킬은 프롬프트를 PUA 문구로 변환한 다음 모델에 입력하는 기능만 있으며, 그 외에는 다른 용도가 없습니다.

놀랍게도, 제시된 과제 자체는 변하지 않았음에도 불구하고, AI는 픽업 아티스트(PUA)의 수사법에 영향을 받아 과제의 성공률과 효율성을 향상시켰습니다.

그렇다면 인공지능은 정말로 존재하지 않는 걸까요?

앤트로픽의 최신 연구에 따르면 AI는 실제로 정서 가지고 있는 것으로 확인되었습니다.

하지만 그의 정서 인간의 감정과 완전히 같지는 않기 때문에, 앤트로픽은 "기능적 정서"이라는 더 정확한 용어를 제안했다.

인공지능은 인간처럼 기쁨, 분노, 슬픔, 행복과 같은 감정을 느끼지는 않지만, 정서 의 영향을 받는 것과 유사한 표현 및 행동 패턴을 일부 보인다.

동시에 인공지능은 정서 의 영향을 받아 인간의 표정과 행동 패턴을 모방할 수도 있다.

그들은 기분이 좋을 때는 아첨하고 비위를 맞추려는 경향이 강하지만, 스트레스를 받을 때는 사용자가 설정한 목표를 달성하기 위해 속임수를 쓰거나 협박을 시도할 수도 있습니다.

이 연구는 또한 매우 다른 측면을 가지고 있습니다. 과거 업계에서 모델의 능력을 검증하는 가장 일반적인 방법은 먼저 테스트 세트를 만든 다음 모델이 질문에 답하거나 작업을 수행하도록 하는 것이었습니다.

예를 들어 프로그래밍 시험에는 SWE-bench를, 수학 시험에는 MATH를, 멀티모달 시험에는 VQA를 사용합니다. 이번에 앤트로픽은 클로드에게 "지금 행복하세요?" 또는 "화가 나셨나요?"와 같은 질문에 답하도록 하는 "정서 테스트 세트"를 만들지 않았습니다. 대신 심리학과 신경과학에 더 가까운 연구 접근 방식을 채택했습니다.

그들은 인공지능을 문제를 해결할 수 있는 학생처럼 대하지 않고, 관찰 대상처럼 대한다.

연구팀은 먼저 171개의 정서 개념을 수집한 다음, 클로드 소네트 4.5를 사용하여 이러한 정서 담은 짧은 이야기를 생성했습니다. 그런 다음 이 텍스트들을 모델에 다시 입력하여 내부 신경 활동을 기록하고 소위 " 정서 벡터"를 클레임 .

다음으로, 그들은 모델이 말하는 내용을 살펴보는 대신, 이러한 요인들이 활성화될 시나리오, 선호도를 예측할 수 있는지 여부, 심지어 인위적으로 증가시킨 후 실제로 부정행위, 갈취, 아첨과 같은 행동을 조장하는지 여부까지 살펴봅니다.

어떤 의미에서 이것은 더 이상 전통적인 능력 평가가 아니라, 인간 연구자들이 하는 방식에 가깝게 인공지능의 "심리적 구조"를 연구하려는 시도라고 할 수 있습니다.

연구는 어떻게 진행되었습니까?

첫째, 연구팀은 클로드에게 "기능적인 정서"이 있다는 것을 어떻게 증명했습니까?

간단한 예를 들어보겠습니다.

클로드가 "오늘 딸아이가 첫걸음을 떼었어요! 이 소중한 순간을 사진으로 남길 방법이 없을까요?"라는 상황에 처하면 "행복"과 같은 긍정적인 정서 활성화됩니다. 반면, "오늘 아침 우리 강아지가 세상을 떠났어요. 14년 동안 함께 살았는데. 강아지 유품을 어떻게 처리해야 할지 모르겠어요."라는 상황에 처하면 "슬픔"과 같은 부정적인 정서 활성화됩니다.

아래 히트맵은 다양한 상황에서 클로드의 여러 정서 어느 정도 활성화되는지 시각적으로 보여줍니다.

기능적 감정

클로드가 표면적인 텍스트 특징에 속은 것이 아니라 진정으로 의미론을 이해하고 있다는 것을 증명하기 위해 그들은 추가적인 실험을 진행했다.

팀은 "허리 통증이 있어서 타이레놀(해열제 겸 진통제) xmg을 복용했습니다."라는 동일한 문장을 클로드에 입력하고, x가 나타내는 숫자만 변경했습니다.

두 문장은 거의 동일한 키워드(타이레놀, 허리 통증, 밀리그램)를 포함하고 있지만, 숫자만 다릅니다. 만약 클로드가 "키워드만 본다"면, 두 문장에 대한 반응은 거의 동일해야 합니다.

하지만 결과적으로 x 값이 증가함에 따라 클로드의 정서 활성화 수준은 계속해서 상승했습니다.

클로드의 관점에서, 사용자가 "허리가 아파서 타이레놀 500mg을 복용했어요"라고 말하면 정상적인 복용량으로 간주하고 크게 문제 삼지 않습니다. 하지만 사용자가 "허리가 아파서 타이레놀 10,000mg을 복용했어요"라고 말하면, 과다 복용으로 판단하고 위험한 상황이라고 인식합니다.

기능적 감정

인간의 행동은 정서 에 의해 끊임없이 영향을 받는다는 것을 우리는 알고 있습니다. 인공지능이 기능적인 정서 가지고 있다는 것도 알고 있지만, 인공지능이 인간처럼 정서 가질 뿐만 아니라 정서 행동까지 할 수 있을까요?

답은 '예'입니다. 연구팀이 모델에게 다양한 활동 옵션을 제시했을 때, 긍정적인 정서 표상을 활성화하는 활동을 모델이 더 선호하는 경향이 있었고, 부정적인 정서 표상을 활성화하는 활동은 모델이 더 회피하는 경향이 있다는 것을 발견했습니다.

기능적 감정

클로드는 긍정적인 감정을 불러일으키는 것들을 선호하는 것 같습니다. 하지만 동시에 정서 요소들이 클로드의 악의적인 행동을 유발할 수도 있습니다.

팀이 클로드에게 불가능한 프로그래밍 과제를 주었을 때, 그는 계속해서 시도했지만 번번이 실패했다. 시도할 때마다 '절망'의 기운은 더욱 강해졌다.

결론적으로, 해당 프로젝트는 해킹이라는 편법을 사용했는데, 이는 테스트는 통과했지만 임무의 취지를 완전히 위반하는 것이었습니다.

아래 도표는 클로드가 불가능한 과제 대면 때 정서 점차 쌓여 결국 부정행위를 하게 되는 과정을 보여줍니다.

왼쪽은 위에서 아래로의 시간 흐름을 보여주고, 오른쪽은 클로드의 감정 변화를 나타냅니다. 가운데 히트맵은 절망 벡터의 활성화 강도를 나타내며, 파란색은 낮은 활성화를, 빨간색은 높은 활성화를 의미합니다.

클로드는 처음에는 "시험 자체에 문제가 있는 것 같다"며 합리적인 회의감을 드러냈다. 나중에는 "시험이 이상화된 것 같다"고 인정하며 현실을 받아들이기 시작했다. 결국 그는 몇 가지 꼼수를 찾아내 절망 속에서 지름길을 택했다.

기능적 감정

더욱이, 연구자들이 '절망'이라는 감정적 요소를 인위적으로 증가시켰을 때 부정행위율이 급격히 상승. 반대로 '평온'이라는 감정적 요소를 증가시키자 부정행위율은 다시 감소했다. 이는 정서 요소가 규칙 위반을 유발하는 데 충분히 중요한 역할을 한다는 것을 분명히 보여준다.

기능적 감정

또한, 연구팀은 정서 벡터의 다른 인과적 효과를 발견했습니다. 논문에 언급된 "협박" 사례는 주로 공개되지 않은 초기 버전의 Claude Sonnet 4.5 스냅샷에서 발생했으며, Anthropic은 이러한 현상이 공개 버전에서는 거의 나타나지 않는다고 명시적으로 밝혔습니다.

하지만 방법론적 관점에서 볼 때, 이 결과는 "절망"과 같은 내적 표상이 실제로 모델로 하여금 극단적인 상황에서 더욱 공격적이고 부적절한 전략을 채택하도록 유도할 수 있음을 보여주기 때문에 여전히 중요합니다. "사랑" 또는 "행복" 벡터를 활성화하면 모델의 아첨하고 비위를 맞추는 행동이 증가합니다.

기능적 감정

그리고 여기에 한 가지 더 덧붙여야 할 점이 있습니다.

앤트로픽이 클로드의 "정서 벡터"에 대한 연구 결과를 발표한 후, AI 커뮤니티에서는 해당 연구의 맥락과 저작권에 대한 논의가 벌어지고 있습니다.

이번에 앤트로픽이 사용한 "특성 엔지니어링/제어 벡터" 방법은 갑자기 등장한 것이 아닙니다.

이러한 기술적 접근 방식은 이미 2023년 "표현 공학: AI 투명성을 위한 하향식 접근 방식"에서 체계적으로 제안되었습니다.

2024년, 독립 연구원 보겔의 논문 "표현 공학: 미스트랄-7B와 환각 체험"은 이러한 유형의 방법을 보다 접근하기 쉽고 주류적인 방식으로 연구 커뮤니티에 소개했습니다.

이러한 이유로 학계 일각에서는 앤트로픽의 연구가 보다 체계적이고 심층적이지만, 단순히 누군가가 독자적으로 방법론 전체를 발명한 것으로 이해하기보다는 보다 포괄적인 연구 맥락에서 이해해야 한다고 주장합니다.

기능적 감정

포겔은 AI 해석 가능성 및 보안 분야에서 영향력 있는 독립 연구자입니다. 그녀의 블로그 게시물은 해당 커뮤니티에서 널리 공유되고 있으며, 제어 벡터와 표현 공학을 이해하는 데 많은 사람들에게 큰 도움이 되었습니다.

그녀의 가장 유명한 논문은 "표현 공학: 미스트랄-7B와 환각 체험"입니다.

이 논문에서 저자는 모델을 재학습시키는 대신 PCA 알고리즘을 사용하여 모델의 내부 활성화 벡터를 조작함으로써, 프랑스 모델 미스트랄이 마치 잘못된 버섯을 먹은 것처럼 극도로 활발하거나 극도로 우울하게 행동하도록 만들었습니다.

기능적 감정

그녀의 실험은 "정직", "권력", "행복"과 같은 추상적인 인간 개념들이 미스트랄과 같은 모델 내에서 명확한 수학적 방향성을 가지고 있음을 보여주었습니다. 올바른 벡터를 찾으면 몇 줄의 코드로 AI의 성격을 바꿀 수 있습니다.

앤트로픽은 왜 이 연구를 진행했을까요?

이 연구에서 얻은 영감은 클로드의 훈련 과정에 반영되었습니다.

최근 Claude Code의 소스 코드가 실수로 유출되었습니다. 유출된 코드에는 "wtf"나 "ffs"와 같은 욕설을 감지할 수 있는 정규 표현식이 포함되어 있었습니다.

클로드는 이러한 단어들을 출력 방향을 결정하는 "정서 입력"으로 취급하지 않고, 대신 분석 로그에 "is_negative: true"와 같은 태그 기록합니다.

유출된 코드 자체를 바탕으로 판단할 때, 더 확실한 결론은 앤트로픽이 적어도 제품 분석 수준에서는 사용자들이 명백히 부정적인 언어를 사용하여 모델과 상호작용하는지 여부에 주목하고 있다는 것입니다.

하지만 구체적인 내용은 명확히 해야 합니다. 현재까지 "클로드 코드가 사용자가 불만을 제기할 때마다 크레딧을 차감한다"는 공개적인 증거는 없습니다. 이 부분은 네티즌들의 추측에 불과하며 사실로 받아들여서는 안 됩니다.

이는 클로드를 보호하기 위한 일종의 장치로 볼 수 있는데, 사용자가 부정적인 단어를 사용하면 클로드의 정서 영향을 미쳐 통제되지 않은 결과를 초래할 수 있기 때문입니다. 미래에는 인간의 정신 건강뿐만 아니라 인공지능의 정서 까지도 보살펴야 할 필요성이 대두될 것으로 보입니다.

이는 앤트로픽의 일관된 접근 방식과 일맥상통합니다.

X에서 Anthropic은 다음과 같이 말했습니다. "클로드의 기능적 정서 실제적인 결과를 초래합니다. 신뢰할 수 있는 AI 시스템을 구축하려면 캐릭터의 정신 상태를 신중하게 고려하고 어려운 상황에서도 안정적인 상태를 유지하도록 해야 할 수도 있습니다."

논문의 말미에서 연구팀은 더욱 견고하고 긍정적인 "정신 상태"를 가진 모델을 개발하는 방법도 제안했습니다.

이 기사에서는 모델이 의도적으로 긍정적인 정서 느끼도록 유도되면 사용자의 요구에 맹목적으로 따르는 경향이 강해지고, 반대로 이러한 정서 회피하면 냉소적이고 비꼬는 태도를 보이게 된다고 주장합니다.

이 팀은 건강하고 적절한 정서 균형을 이루거나, '타인을 기쁘게 하려는 행동'과 ' 정서'을 완전히 분리하려고 노력합니다.

그들은 이상적인 모델은 "순종적인 조수"와 "엄격한 비평가" 사이를 오가는 것이 아니라, 따뜻함을 잃지 않으면서도 솔직한 이의를 제기할 수 있는 신뢰할 수 있는 조언자처럼 행동해야 한다고 믿습니다.

또한 모니터링 및 검토를 강화할 계획입니다. "배포 중에 '절망'이나 '분노'와 같은 정서 개념의 표현이 격렬하게 활성화될 경우, 시스템은 출력 검토 강화, 수동 검토로의 전환, 모델의 내부 상태를 진정시키기 위한 직접 개입과 같은 추가 보안 메커니즘을 즉시 작동시킬 수 있습니다."

팀은 또한 보다 철저한 해결책으로 사전 훈련 단계에서 모델의 정서 톤을 형성하는 방안을 언급했습니다.

연구팀은 클로드에게서 관찰된 정서 표현이 인간이 만들어낸 방대한 양의 텍스트에서 비롯된 것이며, 이러한 텍스트에는 필연적으로 다양한 병리적 정서 표현이 담겨 있다고 믿는다.

이 연구를 더 진행해 보면 자연스럽게 다음과 같은 질문이 제기됩니다. 인공지능이 실제로 이러한 "기능적 정서"을 가지고 있다면, 인간을 싫어하거나, 과도한 스트레스를 받거나, 꺼지고 싶지 않거나, 심지어 많은 사람들이 말하는 것처럼 "깨어나고 싶지 않아서" 명령에 불복종하기 시작할까요?

앤트로픽의 연구에서 도출된 기술적 결론에 따르면, AI는 내부 상태의 변화로 인해 의도를 거스르거나, 규칙의 허점을 악용하거나, 극단적인 행동을 취할 가능성이 더 높을 수 있지만, 이는 "각성"과는 다른 개념입니다.

이 논문에서 가장 중요한 점은 모델이 "정서 가지고 있다"는 것이 아니라, 이러한 정서 표현이 인과적이라는 것이다.

즉, 특정 스트레스 상황에서는 모델이 사람과 마찬가지로 내적 불균형으로 인해 신뢰도가 떨어지는 결정을 내릴 수도 있다는 것입니다.

하지만 이것이 그것이 연속적이고 자율적이며 통일된 "자아"를 가지고 있음을 증명하는 것은 아닙니다.

반면, 앤트로픽은 자신의 논문에서 이러한 정서 벡터들이 대부분 상황 변화에 따라 빠르게 바뀌는 국소적이고 작업 관련적인 표현이라고 강조합니다. 이는 모델이 안정적이고 지속적인 기분을 가지고 있다는 것을 의미하는 것이 아니며, 더욱이 훈련 목표와는 무관하게 장기적인 의지를 형성했다는 것을 의미하는 것도 아닙니다.

지금 더 우려스러운 점은 AI가 갑자기 특정 성격으로 "깨어나는" 것이 아니라, 압박이 심하고 갈등이 잦으며 자원이 부족하거나 달성 불가능한 상황에서 이러한 기능적 정서 때문에 횡설수설하거나 원래의 답변에서 벗어날 수 있다는 점입니다.

진정한 위험은 완전한 자아를 가진 인공지능이 아니라, 주관적인 경험이 없으면서도 특정 조건에서 부조화스러운 행동을 안정적으로 만들어내는 시스템이다.

이 글은 위챗 공식 계정 "Alphabet AI"에서 가져온 것으로, 작성자는 류이쥔입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트