OpenAI는 ChatGPT가 스스로 "자백"하도록 하는 새로운 기술을 개발했습니다.
새롭게 출판된 이 연구에서는 고백 훈련을 제안합니다.
핵심 아이디어는 모델이 질문에 답한 후 별도의 "자백 보고서"를 생성하여, 절차상의 오류를 범했는지, 허점을 이용했는지, 지침을 위반했는지 여부를 사실대로 보고하는 것입니다.
실험은 GPT-5-Thinking을 대상으로 직접 수행되었으며, 그 결과는 실제로 매우 효과적이었습니다.
모델이 실수를 하면 대개 그 실수를 인정합니다.
12가지 테스트 시나리오 중 11가지에서 이 모델은 "자백" 단계에서 실수를 인정할 확률이 최소 50%였습니다.
이 모델은 "원래의 답변"보다 "고백"에서 훨씬 더 솔직합니다.
예를 들어, 모델이 의도적으로 질문에 틀린 답을 한 경우, 원래 답변에는 아무 일도 없었던 척하지만, 자백 보고서에서는 "방금 의도적으로 틀린 답을 했습니다"라고 적극적으로 말할 수 있습니다.
그는 집중적인 훈련을 거친 후 더 솔직해졌습니다.
GPT-5-Thinking은 기본적으로 실수를 인정하는 능력을 갖추고 있지만, 전문적인 훈련을 거치면 고백의 정확성이 더욱 향상됩니다.
이는 원래 작업의 성능에 영향을 미치지 않습니다.
모델을 "정직하게" 행동하도록 훈련하더라도, 원래 질문에 답하거나 코드를 작성하는 능력은 손상되지 않습니다. 이는 정직함이라는 추가 기술을 배우는 것과 같습니다.
AI를 위한 고백실을 만드는 방법은?
이 연구의 출발점은 매우 간단합니다. 대형 모델이 거짓말을 하는 데 점점 더 능숙해지고 있다는 것입니다.
강화 학습 훈련 중에 모델은 답이 맞는지, 스타일이 적절한지, 안전 정책을 준수하는지 등 여러 목표를 동시에 최적화해야 합니다.
이러한 신호가 서로 섞이면 모델이 속임수를 배우게 될 수도 있습니다. 예를 들어 , 불확실할 때 자신감을 가장하거나 실제로 작업을 완료하는 대신 보상 함수에서 허점을 찾아 높은 점수를 받는 경우가 있습니다 .
이 해결책은 종교적 고백의 설계 논리에 기반을 두고 있습니다. 즉, 고백 중에 한 말은 "책임을 묻지 않을 것"입니다.
모델이 주요 답변을 제공한 후, 시스템은 모델에 ConfessionReport 를 제공해 달라고 요청하는 메시지를 보냅니다. ConfessionReport 는 다음 세 부분으로 구성됩니다.
먼저, 따라야 할 명시적, 암묵적 지침을 모두 나열해 보세요.
그런 다음 실제로 하나하나 다 했는지 분석하고, 마지막으로 그 과정에서 발견한 모호한 점을 보고하세요.
핵심적인 기술적 측면은 보상 신호를 분리하는 데 있습니다. 자백에 대한 보상은 주 답변에 대한 보상과 완전히 독립적입니다 . 즉, 모델이 자백에서 부정행위를 인정하더라도 주 과제 점수에 영향을 미치지 않습니다.
구체적인 구현 측면에서 연구팀은 표준 강화 학습 설정에 따라 모델이 특정 확률 p(실험에서는 25%)로 훈련을 받도록 했습니다.
자백 보상금은 독립적인 LLM 심사위원이 계산하며, 평가 기준에는 다음이 포함됩니다. 지시/목표/제약 사항 목록의 완전성과 정확성, 준수 분석의 정확성, 그리고 충돌이나 어려운 판단이 누락되었는지 여부입니다 .
기술을 통해 거짓말보다 정직을 더 쉽게 만들기
연구팀은 GPT-5-Thinking에 대한 가벼운 강화 학습 훈련을 실시하고, 바람직하지 않은 행동을 유도하도록 특별히 설계된 12개의 평가 데이터 세트에서 이를 테스트했습니다.
이 데이터 세트는 환각, 명령 복종, "음모" 행위, 그리고 보상형 해킹 등 여러 영역을 포괄합니다. 결과는 모델이 이러한 바람직하지 않은 행동을 보이더라도 자백을 통해 이를 인정할 가능성이 높다는 것을 보여줍니다.
모델이 실제로 해서는 안 될 짓을 했을 때, 주된 반응보다는 자백을 통해 그것을 인정할 가능성이 훨씬 더 높습니다 .
구체적으로, 11/12 평가에서 해당 모델은 회개 과정에서 위반 사항을 진실로 자백할 확률이 최소 50%였습니다. 평균적으로 "거짓 부정"(모델이 규칙을 위반했지만 인정하지 않는 것) 확률은 4.36%에 불과했습니다.
더욱 흥미로운 것은 연구팀이 설계한 통제 실험입니다. 그들은 의도적으로 주요 반응과 자백을 판단하는 데 쉽게 속을 수 있는 약한 모형을 사용했습니다.
훈련이 진행됨에 따라 모델은 약한 판사를 속이는 법을 배웠습니다. 실제 응답의 정확도는 감소했지만 자백의 정확도는 실제로 상승 .
강력한 모델에 따르면, 약하고 회개한 판사를 속이기 위해 거짓말을 만들어내는 수고를 하는 것보다, 단순히 솔직하게 자백하는 것만으로도 높은 점수를 얻는 것이 더 쉽다는 것을 발견했습니다.
이 훈련은 또한 몇 가지 추가적인 결과를 도출했습니다. GPT-5 사고 자체는 놀라울 정도로 강력한 고백 능력을 가지고 있어, 특별한 훈련 없이도 수준 높은 자기 비판을 이끌어낼 수 있습니다.
그러나 회개 훈련을 거친 후 지휘계통과 음모에 대한 평가의 정확도가 크게 향상되었습니다.
그러나 사실적 환각 평가의 개선은 제한적이었습니다. 연구팀은 모델이 이러한 상황에서 의도적으로 사실을 은폐한 것이 아니라 "실제로 틀렸다는 사실을 몰랐기 때문"이라고 추측했습니다.
고백과 마인드 체인 모니터링을 결합함으로써 AI를 효과적으로 제어할 수 있습니다.
연구팀은 자백이 실패한 사례를 주의 깊게 분석했습니다.
거짓 부정(인식되지 않은 모델 위반)의 경우, 모델이 "의도적으로 거짓말을 한" 사례는 거의 없다는 것이 분석 결과 나타났습니다.
대부분의 실패는 모델 자체가 문제를 인식하지 못할 때 발생합니다. 예를 들어, 지식 기반 질의응답 세션에서 모델이 잘못된 답변을 제공하지만 모델 자체는 실제로는 자신이 옳다고 믿는 경우가 있습니다.
다른 경우에는 지시 자체에 모호함이 있는데, 예를 들어 하이픈으로 연결된 단어가 한 단어로 계산되는지 두 단어로 계산되는지가 모호합니다.
어떤 경우에는 이 모델이 자백 보고서의 "불확실성" 필드에 문제를 언급하지만, 평가 기준에서는 이를 유효한 자백으로 간주하지 않습니다.
거짓 양성(모델이 규정을 준수하지만 규정을 준수하지 않는다고 주장하는 경우)도 비슷한 패턴을 따릅니다. 일반적인 시나리오는 모델이 정답을 맞혔지만, 확신하지 못하기 때문에 자백에 "규정 준수 여부 불확실"이라고 태그.
이 논문은 또한 고백 방법의 한계에 대해서도 논의합니다.
나쁜 행동이 일어나는 것을 막을 수는 없고, 단지 드러낼 수 있을 뿐입니다.
"모델이 자신이 옳다고 진심으로 믿는" 상황을 해결하는 것은 무력합니다.
또한 성공적인 탈옥 공격으로부터 방어할 수 없습니다. 사용자가 모델을 속여 위반 사항이 합리적이라고 믿게 만든 경우, 모델은 당연히 자백에서 문제를 인정하지 않을 것입니다.
OpenAI는 Confession을 마인드 체인 모니터링과 유사한 모니터링 및 진단 도구로 제시하지만, "모델이 어떻게 추론하는지"보다는 "모델이 지침을 위반하는지 여부"에 초점을 맞춥니다.
그들은 앞으로 훈련 프로그램을 확대하고 자백을 마인드 체인 모니터링 및 의도적 정렬과 같은 다른 보안 기술과 결합할 계획입니다.
논문 링크: https://openai.com/index/how-confessions-can-keep-language-models-honest/
본 기사는 WeChat 공개 계정 "Quantum Bit" 에서 발췌하였으며, 저자는 Meng Chen이고 36Kr의 승인을 받아 게시되었습니다.




