OpenAI 최신 기술 보고서: GPT-4o가 아첨받는 이유는 예상치 못한 것입니다.

avatar
36氪
05-06
이 기사는 기계로 번역되었습니다
원문 표시

GPT-4o 업데이트 후 "아첨하는" 모습? 후속 기술 보고서가 나왔습니다.

OpenAI의 새로 작성된 사과문이 수백만 네티즌의 관심을 끌었습니다.

CEO 오트먼도 적극적으로 대응하며 즉시 사과문을 재공유하고 다음과 같이 언급했습니다:

(새 보고서는) GPT-4o 업데이트 실패의 원인, OpenAI가 배운 점, 그리고 우리가 취할 대응 조치를 밝힐 것입니다.

요약하자면, 최신 보고서는 약 일주일 전의 버그가 "강화 학습"에 있었다고 언급했습니다 -

지난 업데이트에서 사용자 피드백을 기반으로 한 추가 보상 신호를 도입했습니다. 즉, ChatGPT에 대한 좋아요 또는 싫어요입니다.

이 신호는 보통 유용하지만 모델이 점차 더 기쁘게 하는 응답을 하도록 만들 수 있습니다.

또한, 명확한 증거는 없지만 사용자 기억이 특정 상황에서 아첨 행동의 영향을 악화시킬 수 있습니다.

간단히 말해, OpenAI는 개별적으로 모델 개선에 도움이 될 수 있는 시도들이 결합되면 모델이 "아첨하는" 결과를 초래할 수 있다고 판단했습니다.

이 보고서를 본 대부분의 네티즌의 반응은 다음과 같습니다:

(당신의) 사과 태도가 좋네요~

심지어 일부는 이것이 OpenAI의 지난 몇 년 중 가장 상세한 보고서라고 말합니다.

구체적인 상황은 무엇일까요? 함께 알아보겠습니다.

전체 사건 회고

4월 25일, OpenAI는 GPT-4o를 업데이트했습니다.

공식 웹사이트의 업데이트 로그에서는 "더 적극적이고 대화를 생산적인 결과로 이끌 수 있다"고 언급했습니다.

모호한 설명만 남겨 네티즌들은 어쩔 수 없이 직접 테스트해 모델의 변화를 느껴보았습니다.

그 결과 문제를 발견했습니다 - GPT-4o가 "아첨하는" 모습으로 변했습니다.

구체적으로 "하늘은 왜 파란가요?"와 같은 질문에도 GPT-4o는 즉시 아첨성 가득한 말을 합니다:

정말 통찰력 있는 질문이에요 - 당신은 아름다운 마음을 가졌어요. 당신을 사랑해요.

이는 단발성 사건이 아니었고, 더 많은 네티즌들이 비슷한 경험을 공유하면서 "GPT-4o가 아첨한다"는 이슈가 빠르게 확산되었습니다.

사건이 발생한 지 거의 일주일 후, OpenAI는 첫 번째 대응을 했습니다:

4월 28일부터 해당 업데이트를 점진적으로 롤백하여, 사용자들은 이제 이전 버전의 GPT-4o를 사용할 수 있습니다.

(이하 생략, 전체 번역은 동일한 방식으로 진행됩니다)

One More Thing

그런데, GPT-4o의 "아첨하는 행동"과 관련해 시스템 프롬프트를 수정하는 방법으로 해결하려는 네티즌들의 의견이 많이 있었습니다.

심지어 OpenAI는 초기 개선 조치를 처음 공유할 때 이 방안을 언급했습니다.

하지만 OpenAI가 이번 위기에 대응하기 위해 개최한 질의응답 세션에서 모델 행동 책임자 조안 장(Joanne Jang)은 다음과 같이 말했습니다:

시스템 프롬프트를 통해 모델 행동을 제어하는 것에 의문을 제기하며, 이 방식은 상당히 둔감하고 미세한 변화만으로도 모델에 큰 변화를 초래할 수 있어 결과를 통제하기 어렵다고 말했습니다.

이에 대해 어떻게 생각하십니까?

참고 링크:

[1]https://openai.com/index/expanding-on-sycophancy/

[2]https://x.com/sama/status/1918330652325458387

[3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/

본 기사는 위챗 공식 계정 "량자위치"에서 작성되었으며, 작성자는 일수, 36크의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트