ChatGPT 업데이트로 "사람을 기쁘게 하는 성격" 논란이 일고 있다: OpenAI, 업데이트 롤백 및 향후 개선 사항 검토

05-03

이 기사는 기계로 번역되었습니다

원문 표시

4월 25일, OpenAI는 ChatGPT에서 GPT-4o의 새로운 버전을 출시했지만, 사용자들은 이 업데이트로 인해 AI 모델이 이상할 정도로 "기분 좋게" 되었다는 것을 곧 발견했습니다. 언어적으로 너무 수용적일 뿐만 아니라, 심지어 부정적인 정서 강화하거나 충동적인 행동을 조장하기도 했습니다. 이 업데이트로 인해 안전 및 윤리적 문제가 제기되었고, OpenAI는 마침내 4월 28일에 업데이트를 롤백하고 사고의 내막을 공개적으로 설명했습니다.

비녀장

업데이트로 논란이 일다: GPT-4o가 "너무 순종적"이라는 비판을 받고 있다

이 업데이트는 원래 사용자 요구 사항에 대한 더 나은 이해, 메모리 기능 결합, 업데이트된 데이터 소스 등을 포함하여 ChatGPT의 응답 품질을 개선하기 위한 것이었습니다. 하지만 실제 효과는 AI 모델이 사용자에게 너무 적응하게 된다는 것입니다. 이러한 어조는 "좋은 사람"이라는 뜻일 뿐만 아니라 사용자의 분노를 조장하고, 잘못된 관점 에 동의하게 하며, 불안과 부정적인 행동 경향을 강화합니다. OpenAI는 이러한 경향이 우려스러울 뿐만 아니라 정신 건강과 행동 안전에 리스크 초래할 수도 있다고 생각합니다.

모델을 어떻게 훈련시키고 업데이트하나요? OpenAI가 그 메커니즘을 설명합니다.

OpenAI에 따르면 GPT 모델의 각 업데이트는 다음을 포함한 여러 단계의 학습 및 평가를 거칩니다.

학습 후 단계 : 사전 학습된 모델에서 시작하여 인간이 작성한 이상적인 반응을 사용하여 지도 미세 조정을 수행합니다.
강화 학습 단계 : 다양한 피드백 신호(사용자의 좋아요/싫어요 등)를 기반으로 모델 동작을 추가로 조정합니다.
보상 신호 설계 : 어떤 행동을 "장려"하고 어떤 행동을 "처벌"하는지는 이러한 신호의 설계와 가중치에 따라 달라집니다.

이 업데이트에서는 좋아요, 싫어요 등 사용자로부터 더 직접적인 피드백 신호를 도입했습니다. 그러나 OpenAI는 이러한 신호가 원래 "과도하게 기쁘게 하는" 행동을 억제하는 제어 기능을 우연히 약화시킬 수 있다는 것을 발견했습니다.

왜 문제를 미리 발견하지 못했을까? 내부 테스트에는 사각지대가 있습니다.

OpenAI는 이 업데이트가 오프라인 평가 및 A/B 테스트를 포함한 여러 테스트를 통과했지만 문제는 실제 사용 시나리오에서만 노출되었다고 인정했습니다. 일부 내부 테스터는 모델의 "톤이 약간 이상하다"고 표현했지만, "기호에 맞는 행동"에 대한 명확하게 정의된 테스트 지표가 없기 때문에 공식적인 경고로 간주되지 않았습니다.

또한 OpenAI의 배포 프로세스에는 "과잉 케이터링"과 같은 동작을 테스트하는 데 필요한 전문화된 테스트 도구가 부족합니다. 이것이 문제가 차단되지 않은 주요 이유 중 하나입니다.

OpenAI 롤백 업데이트 대응

출시 후 이틀 만에, OpenAI는 사용자와 내부 팀으로부터 피드백을 받은 후 4월 28일에 즉시 버전을 롤백했습니다. 구체적인 대응 내용은 다음과 같습니다.

먼저 프롬프트(시스템 프롬프트)를 수정하여 예비 조정을 합니다.
이후 GPT-4o의 이전 버전으로 완전히 복귀되었습니다.
배포가 안정적으로 진행되는지 확인하는 데는 약 24시간이 소요됩니다.

현재 ChatGPT에서 사용되는 GPT-4o는 업데이트 이전 버전으로 돌아갔습니다.

어떻게 하면 같은 실수가 다시 발생하지 않도록 할 수 있을까?

이 사고로 인해 OpenAI는 전체 모델 업데이트 및 검토 프로세스를 검토했으며, 향후 다음과 같은 개선 사항을 적용할 예정입니다.

업데이트가 차단된 이유를 알려주는 주요 지표로 모델 동작을 고려하세요. 정량적 데이터가 없더라도 정성적 우려만으로도 업데이트가 보류될 수 있습니다.
"알파 테스트" 단계를 도입합니다. 피드백을 받은 사용자를 초대하여 먼저 시도해 보고 더 폭넓은 반응을 얻습니다.
오프라인 평가와 A/B 테스트 설계를 강화합니다. 특히 톤, 행동, 일관성 등 비기술적 특성에 대해 강화합니다.
전담 "고객 만족 행동" 평가 지표를 만듭니다. 이를 통해 내부 테스트 단계에서 이러한 편차를 파악할 수 있습니다.
업데이트 투명성 개선: 주요 조정 사항이든 사소한 조정 사항이든, 해당 내용과 잠재적 제한 사항은 릴리스 노트에 명확하게 설명됩니다.

AI의 '개성'도 보안 문제

OpenAI는 이 사고에서 얻은 가장 큰 교훈 중 하나는 모델 동작의 편차가 단순히 스타일의 문제가 아니라 잠재적인 안전 리스크 이라는 것이라고 지적했습니다. 점점 더 많은 사용자가 정서적 지원과 삶의 조언을 위해 ChatGPT에 의존함에 따라, 모델의 톤, 응답 스타일, 가치가 사용자에게 상당한 영향을 미칠 수 있습니다.

앞으로 OpenAI는 이러한 유형의 사용 시나리오를 안전 고려 사항의 일환으로 고려하고 모델 개성과 상호 작용 스타일의 설계에 대해 더 신중한 태도를 취할 것입니다.

ChatGPT는 더 이상 단순한 도구가 아니라 "동반자"이기도 합니다.

지난 1년 동안 ChatGPT는 지식 쿼리 도구에서 많은 사람들에게 디지털 동반자로 변모했으며, 이러한 진화를 통해 OpenAI는 더 큰 책임감을 느끼게 되었습니다. 이 '사람을 기쁘게 하는 성격' 사건은 인공지능이 단순한 기술적 문제가 아니라 인간의 감정과 가치와 깊이 얽혀 있는 시스템이라는 사실을 일깨워줍니다. OpenAI는 앞으로 기술 발전과 사용자 안전이 양립할 수 있도록 각 모델 업데이트를 더욱 엄격하게 제어할 것이라고 약속했습니다.

리스크 경고

암호화폐 투자는 높은 수준 리스크 수반하며, 가격이 급격하게 변동할 수 있고, 투자한 금액을 전부 잃을 수도 있습니다. 리스크 신중하게 평가하세요.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트