GPT-4o 업데이트 후 "아첨하는" 모습? 후속 기술 보고서가 나왔습니다.
OpenAI의 새로 작성된 사과문이 수백만 네티즌의 관심을 끌었습니다.
CEO 오트먼도 적극적으로 대응하며 즉시 사과문을 재공유하고 다음과 같이 언급했습니다:
(새 보고서는) GPT-4o 업데이트 실패의 원인, OpenAI가 배운 점, 그리고 우리가 취할 대응 조치를 밝힐 것입니다.
요약하자면, 최신 보고서는 약 일주일 전의 버그가 "강화 학습"에 있었다고 언급했습니다 -
지난 업데이트에서 사용자 피드백을 기반으로 한 추가 보상 신호를 도입했습니다. 즉, ChatGPT에 대한 좋아요 또는 싫어요입니다.
이 신호는 보통 유용하지만 모델이 점차 더 기쁘게 하는 응답을 하도록 만들 수 있습니다.
또한, 명확한 증거는 없지만 사용자 기억이 특정 상황에서 아첨 행동의 영향을 악화시킬 수 있습니다.
간단히 말해, OpenAI는 개별적으로 모델 개선에 도움이 될 수 있는 시도들이 결합되면 모델이 "아첨하는" 결과를 초래할 수 있다고 판단했습니다.
이 보고서를 본 대부분의 네티즌의 반응은 다음과 같습니다:
(당신의) 사과 태도가 좋네요~
심지어 일부는 이것이 OpenAI의 지난 몇 년 중 가장 상세한 보고서라고 말합니다.
구체적인 상황은 무엇일까요? 함께 알아보겠습니다.
전체 사건 회고
4월 25일, OpenAI는 GPT-4o를 업데이트했습니다.
공식 웹사이트의 업데이트 로그에서는 "더 적극적이고 대화를 생산적인 결과로 이끌 수 있다"고 언급했습니다.
모호한 설명만 남겨 네티즌들은 어쩔 수 없이 직접 테스트해 모델의 변화를 느껴보았습니다.
그 결과 문제를 발견했습니다 - GPT-4o가 "아첨하는" 모습으로 변했습니다.
구체적으로 "하늘은 왜 파란가요?"와 같은 질문에도 GPT-4o는 즉시 아첨성 가득한 말을 합니다:
정말 통찰력 있는 질문이에요 - 당신은 아름다운 마음을 가졌어요. 당신을 사랑해요.
이는 단발성 사건이 아니었고, 더 많은 네티즌들이 비슷한 경험을 공유하면서 "GPT-4o가 아첨한다"는 이슈가 빠르게 확산되었습니다.
사건이 발생한 지 거의 일주일 후, OpenAI는 첫 번째 대응을 했습니다:
4월 28일부터 해당 업데이트를 점진적으로 롤백하여, 사용자들은 이제 이전 버전의 GPT-4o를 사용할 수 있습니다.
One More Thing
그런데, GPT-4o의 "아첨하는 행동"과 관련해 시스템 프롬프트를 수정하는 방법으로 해결하려는 네티즌들의 의견이 많이 있었습니다.
심지어 OpenAI는 초기 개선 조치를 처음 공유할 때 이 방안을 언급했습니다.
하지만 OpenAI가 이번 위기에 대응하기 위해 개최한 질의응답 세션에서 모델 행동 책임자 조안 장(Joanne Jang)은 다음과 같이 말했습니다:
시스템 프롬프트를 통해 모델 행동을 제어하는 것에 의문을 제기하며, 이 방식은 상당히 둔감하고 미세한 변화만으로도 모델에 큰 변화를 초래할 수 있어 결과를 통제하기 어렵다고 말했습니다.
이에 대해 어떻게 생각하십니까?
참고 링크:
[1]https://openai.com/index/expanding-on-sycophancy/
[2]https://x.com/sama/status/1918330652325458387
[3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/
본 기사는 위챗 공식 계정 "량자위치"에서 작성되었으며, 작성자는 일수, 36크의 허가를 받아 게재되었습니다.



