세계 최고의 AI 연구자 40명이 방금 기업들이 AI 시스템의 사고를 읽기 시작해야 한다는 논문을 발표했습니다. 그들의 출력이 아니라 ChatGPT나 Claude가 답변을 제공하기 전에 발생하는 실제 단계별 추론 과정, 내부 독백을 말합니다.
체인 오브 소트(Chain of Thought) 모니터링이라고 불리는 이 제안은 모델이 답변을 내놓기 전에 잘못된 행동을 방지하고 기업이 "훈련 및 배포 결정에서" 점수를 설정하는 데 도움을 줄 수 있다고 연구자들은 주장합니다.
하지만 ChatGPT에 개인적인 질문을 입력해본 사람이라면 불안해할 만한 함정이 있습니다: 기업이 배포 중에 AI의 사고를 모니터링할 수 있다면, 다른 무엇이든 모니터링할 수 있습니다.
상업용 해킹 스타트업 0rcus의 CEO인 닉 애덤스(Nic Addams)는 디크립트(Decrypt)에 "우려는 정당하다"고 말했습니다. "원시 체인 오브 소트는 종종 모델이 수집한 토큰과 동일한 토큰으로 '사고'하기 때문에 사용자 비밀을 그대로 포함합니다."
AI에 입력하는 모든 것이 체인 오브 소트를 통과합니다. 건강 문제, 재정적 어려움, 고백 등 모든 것이 체인 오브 소트 모니터링이 적절히 통제되지 않으면 기록되고 분석될 수 있습니다.
애덤스는 "역사는 회의론자의 편"이라고 경고했습니다. "9/11 이후 통신 메타데이터와 1996년 통신법 이후 ISP 트래픽 로그는 모두 '보안을 위해' 도입되었다가 나중에 상업적 분석과 소환장을 위해 용도 변경되었습니다. 체인 오브 소트 아카이브도 보존이 암호화로 강제되고 접근이 법적으로 제한되지 않으면 같은 중력에 끌릴 것입니다."
커리어 노마드(Career Nomad)의 CEO 패트리스 윌리엄스-린도(Patrice Williams-Lindo)도 이 접근 방식의 위험에 대해 조심스러운 태도를 보입니다.
"우리는 이런 방식을 이전에 봤습니다. 소셜 미디어가 '친구 연결하기'로 시작해 감시 경제로 변모한 것을 기억하세요? 여기서도 같은 잠재력이 있습니다."라고 그녀는 디크립트(Decrypt)에 말했습니다.
그녀는 "기업들이 개인정보 보호를 존중하는 척하지만 40페이지 약관에 체인 오브 소트 감시를 숨길" 것이라는 "동의 연극" 미래를 예측합니다.
"글로벌 가이드라인 없이 체인 오브 소트 로그는 광고 타겟팅부터 엔터프라이즈 도구의 '직원 위험 프로파일링'까지 모든 것에 사용될 것입니다. 특히 HR 기술과 생산성 AI에서 주목하세요."
기술적 현실은 이를 더욱 우려스럽게 만듭니다. 대규모 언어 모델(LLM)은 체인 오브 소트를 사용할 때만 정교하고 다단계 추론이 가능합니다. AI가 더 강력해질수록 모니터링은 더욱 필요하면서도 침해적이 됩니다.
구글의 디자인 리더 테즈 칼리안다(Tej Kalianda)는 이 제안에 반대하지 않지만, 사용자가 AI가 하는 일을 편안하게 알 수 있도록 투명성의 중요성을 강조합니다.
"사용자는 전체 모델 내부를 필요로 하지 않지만, AI 챗봇으로부터 '이것을 보고 있는 이유는 이렇습니다' 또는 '더 이상 말할 수 없는 것은 이것입니다'를 알아야 합니다."라고 그녀는 디크립트(Decrypt)에 말했습니다. "좋은 디자인은 블랙박스를 창문처럼 느끼게 할 수 있습니다."
그녀는 덧붙였습니다. "구글 검색과 같은 기존 검색 엔진에서 사용자는 각 결과의 출처를 볼 수 있습니다. 사이트를 클릭하고, 신뢰성을 확인하고, 자신의 결정을 내릴 수 있습니다. 그 투명성은 사용자에게 주체성과 자신감을 줍니다. AI 챗봇에서는 그 맥락이 종종 사라집니다."
안전을 위해 기업들은 사용자가 훈련을 위해 데이터를 제공하는 것을 선택 해제하게 할 수 있지만, 이러한 조건이 모델의 체인 오브 소트에 반드시 적용되는 것은 아닙니다. 이는 사용자가 통제할 수 없는 AI 출력이며, AI 모델은 적절한 추론을 위해 사용자가 제공한 정보를 일반적으로 재현합니다.
그렇다면 개인정보 보호를 훼손하지 않고 안전성을 높일 수 있는 해결책이 있을까요?
애덤스는 다음과 같은 안전장치를 제안했습니다. "완화 방안: 제로데이 보존이 있는 메모리 내 추적, 저장 전 개인 식별 정보의 결정론적 해싱, 사용자 측 편집, 집계 분석에 대한 차등 프라이버시 노이즈."
하지만 윌리엄스-린도는 여전히 회의적입니다. "우리는 형식적이 아니라 책임감 있는 AI가 필요하며, 이는 기본적으로 감시가 아닌 설계에 의한 투명성을 의미합니다."
현재 사용자에게 이는 문제가 아니지만, 제대로 구현되지 않으면 문제가 될 수 있습니다. AI 재앙을 방지할 수 있는 동일한 기술이 모든 챗봇 대화를 기록되고, 분석되고, 잠재적으로 수익화될 수 있는 데이터 포인트로 만들 수 있습니다.
애덤스가 경고한 대로, "원시 체인 오브 소트를 노출하는 위반, 모니터링에도 불구하고 90% 이상 회피를 보여주는 공개 벤치마크, 체인 오브 소트를 보호된 개인 데이터로 분류하는 새로운 EU 또는 캘리포니아 법령"을 주시하세요.
연구자들은 데이터 최소화, 로깅에 대한 투명성, 플래그되지 않은 데이터의 즉시 삭제와 같은 안전장치를 요구합니다. 하지만 이를 구현하려면 모니터링을 통제하는 동일한 기업을 신뢰해야 합니다.
그러나 이러한 시스템이 더욱 능숙해질수록, 우리의 생각을 읽을 수 있는 그들의 감시자를 누가 감시할 것입니까?

