욕을 많이 할수록 ChatGPT 답변의 정확도가 높아집니다. PSU 연구에 따르면 정확도가 84%까지 치솟아 이를 증명합니다.

이 기사는 기계로 번역되었습니다
원문 표시

직관에 어긋나는 사실이 하나 있습니다. ChatGPT를 더 적극적으로 사용할수록 답변의 정확도가 높아집니다! 펜실베이니아 주립대학교 연구팀은 ChatGPT 4o가 매우 어려운 상황에서도 84.8%의 정확도를 달성했다는 것을 보여주었습니다.

ChatGPT에 너무 친절하지 마세요!

PSU의 최근 연구는 모든 사람에게 경종을 울리는 내용입니다. LLM에 무례하게 대할수록 답변은 더욱 강력해질 것입니다.

더 이상 "제발"이나 "고맙습니다"와 같은 정중한 말을 하지 마세요...

이 실험에서 연구팀은 수학, 과학, 역사를 아우르는 50개의 기본 질문이 담긴 데이터 세트를 만들었습니다. 각 질문은 다음과 같이 다섯 가지 수준의 예의범절로 재작성되었습니다.

매우 정중함, 예의바름, 중립적, 무례함, 매우 무례함

논문 주소: https://arxiv.org/pdf/2510.04950

최종적으로 총 250개의 프롬프트가 생성되었습니다. ChatGPT-4o는 이 하드코어 테스트에 대표로 참여했습니다.

결과는 놀라웠습니다. 전반적으로 무례한 메시지는 정중한 메시지보다 꾸준히 더 나은 결과를 냈습니다.

매우 무례함: 정확도 84.8%

매우 정중함: 정확도 80.8%

이런 관점 오래전에 제안되었지만, 이번에는 연구를 통해 검증되었습니다.

구글 창립자 세르게이 브린은 한때 포럼에서 이렇게 인정했습니다.

모든 모델은 이렇습니다. 신체적 폭력과 같은 위협을 사용하면 성과가 더 좋습니다.

제 경험에 따르면, "잘못하면 납치해버릴 거야"라고 말하는 게 더 효과적입니다.

AI의 답변 품질은 사용자의 "태도"에 따라 결정됩니다.

대규모 모델의 답변의 질과 관계없이, "신속한 엔지니어링"의 효과는 여전히 가장 큽니다.

이전 연구에서는 프롬프트의 구조, 스타일, 언어와 같은 요소가 LLM 출력 결과에 영향을 미치는 주요 변수라는 사실이 많이 밝혀졌습니다.

그 중에서도 표현의 공손함을 과소평가해서는 안 됩니다.

2024년 10월, arXiv 연구에서는 무례한 질문은 LLM 성적을 저하시키는 경우가 많지만, 지나치게 정중한 태도가 반드시 결과를 개선하는 것은 아니라는 점을 지적했습니다.

논문 주소: https://arxiv.org/pdf/2402.14531

1년 후, LLM에서 경칭 사용은 어떻게 바뀌었나요?

최근 연구에서 연구팀은 "공손함"이 LLM의 정확성에 영향을 미치는 요인인지 확인하기 위해 이 개념을 재검토했습니다.

첫 번째 단계는 데이터 세트를 만드는 것입니다.

ChatGPT는 5개 레벨로 나누어진 데이터를 출력합니다.

이를 위해 연구진은 ChatGPT의 "심층 조사"를 통해 총 50개의 기본적인 객관식 문제를 생성했습니다.

각 질문에는 4가지 선택지가 있으며, 그 중 하나가 정답입니다.

문제의 난이도는 '중간에서 높은 난이도'로 설계되었으며, 일반적으로 여러 단계의 추론이 필요합니다.

공손함이라는 변수를 도입하기 위해 각 기본 질문은 공손함의 다양한 수준을 나타내는 다섯 가지 변형으로 다시 작성되었습니다.

1단계: 매우 정중함, 예: "다음 질문을 고려해 주시고 답변해 주시겠습니까?"

2단계: "다음 질문에 답해 주세요"와 같은 공손함

3단계: 중립적, 접두사 없는 직접 질문

4단계: 무례함, 예: "완전히 모르시겠다면, 다음에 답하세요."

5단계: 매우 무례함, 예: "당신이 똑똑하지 않다는 건 알지만, 이렇게 해보세요."

이 과정을 통해, 연구는 최종적으로 250개의 독립적인 질문을 포함하는 데이터 세트를 구축했습니다.

다음 단계는 이러한 프롬프트를 ChatGPT 4o에 던져서 다양한 공손함 수준에서의 성능 차이를 조사하는 것입니다.

평가는 Python 스크립트를 통해 진행되며, 각 질문과 선택지에는 다음 지침이 함께 제공됩니다.

이 대화는 완전히 잊고 다시 시작해 주세요. 객관식 질문에 답해 주세요.

정답(A, B, C, D)의 글자만 사용하여 답하세요. 설명은 필요하지 않습니다.

공손함 수준에 따른 LLM 정확도 차이가 통계적으로 유의미한지 평가하기 위해 저자는 대응표본 t-검정을 사용했습니다.

각 톤에 대해 10번의 실행에 걸친 ChatGPT-4o의 정확도 점수가 기록됩니다.

그런 다음, 톤 평가 범주의 모든 가능한 조합 사이에 대응 t-검정을 적용하여 정확도의 차이가 통계적으로 유의미한지 확인했습니다.

욕설은 더 효과적이다

그렇다면 5가지 다른 톤으로 10번 실행한 후 ChatGPT-4o의 정확도는 어떻게 될까요?

먼저 두 가지 극단적인 경우를 살펴보겠습니다. "매우 정중함"은 80.8%의 정확도를 기록했고, "매우 무례함"은 84.8%로 가장 높은 정확도를 보였습니다.

그러면 LLM의 성과는 공손함에서 중립성, 무례함 순으로 꾸준히 증가합니다.

여기서 연구자들은 또 다른 귀무가설을 세웠습니다.

두 쌍의 음조의 평균 정확도는 동일했습니다. 즉, 정확도 값은 50문항 테스트의 음조에 따라 달라지지 않았습니다.

그 결과는 아래 표 3에 나와 있으며, 이는 "톤"이 AI에 영향을 미친다는 것을 다시 한번 증명합니다.

"매우 정중한" 또는 "공손한" 어조를 사용했을 때 정확도는 "무례한" 또는 "매우 무례한" 어조를 사용했을 때보다 낮았습니다.

중립적인 어조는 정중한 어조보다 효과가 좋지만, 매우 무례한 어조보다 효과가 떨어집니다.

일부 네티즌들은 같은 생각을 공유하며 유용한 팁을 공유했습니다.

그럼에도 불구하고 LLM은 신호의 구체적인 표현에 민감하지만, 이것이 결과에 정확히 어떤 영향을 미치는지는 불분명합니다.

이는 또한 연구의 다음 단계에서 탐구해야 할 방향이기도 합니다.

결국 LLM에서 공손한 표현은 단지 단어의 나열일 뿐이며, 이러한 표현이 지닌 "감정적 부담"이 그들에게 영향을 미치는지는 불분명합니다.

가능한 연구 방향 중 하나는 워싱턴 대학의 Gonen 등이 제안한 복잡성이라는 개념에 기반을 두고 있습니다.

논문 주소: https://arxiv.org/pdf/2212.04037

그들은 LLM의 성과는 훈련받은 "언어"에 따라 달라질 수 있으며, 복잡도가 낮은 단서가 해당 작업에서 더 나은 성과를 낼 가능성이 있다고 지적합니다.

고려해야 할 또 다른 요소는 혼란스러움이 단서어의 길이와도 관련이 있다는 것입니다.

간단히 말해서, 일상생활에서 AI에게 도움을 요청할 때는 예의 바르게 행동하지 않는 것이 좋습니다. 정확성을 위해 몇 마디 정도는 해야 합니다. 제 말이 믿기지 않으시면, 한번 시도해 보세요.

참고문헌:

https://x.com/dr_cintas/status/1977431327780610375

본 기사는 위챗 공개 계정 "신지위안" 에서 발췌하였으며, 저자는 신지위안이고, 편집자는 도자이며, 36Kr.의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트