AI가 계속해서 거짓말을 하는 이유와 해결 방법

이 기사는 기계로 번역되었습니다

원문 표시

GPT는 왜 가끔 아야와스카를 마신 기술 전문가처럼 환각을 겪을까요? OpenAI의 새로운 연구 논문 "언어 모델은 왜 환각을 겪는가"에 따르면, 환각의 근본 원인은 불가사의한 결함이 아니라 이러한 시스템이 최적화되는 방식의 구조적 특징입니다. 간단히 말해, LLMS는 답을 모른다고 인정하기보다는 거짓말을 하는 편을 택합니다.

LLM은 방대한 학습 텍스트를 바탕으로 가장 가능성이 높은 다음 단어를 예측하여 학습합니다. 대부분의 경우, 정답보다 유창하게 말하는 것이 더 중요합니다. 학습 진도를 측정하는 기준은 종종 솔직한 거절보다 자신감 있는 추측을 더 중요하게 생각합니다. 다시 말해, 이 시스템은 틀렸을지라도 세련된 답변을 도출하도록 설계되었습니다.

부분 점수로 채점되는 시험이라고 생각해 보세요. 점수를 잃지 않고 빈칸으로 남겨둘 수 없다면, 그저 게임에 남아 있기 위해—심지어 대담하게도—계산을 하게 될 것입니다. LLM도 같은 논리로 운영됩니다. "죄송하지만, 잘 모르겠습니다."라는 답변은 최적화라는 수학적인 계산에 의해 처벌받는 반면, 틀렸지만 자신 있게 답하면 여전히 높은 점수를 받을 수 있습니다.

OpenAI 연구진은 이러한 통계적 편향으로 인해 범용 시스템에서 환각이 불가피하게 발생한다고 지적합니다. 유한한 학습 데이터셋으로는 세상의 모든 진실을 포착할 수 없기 때문에 모델은 항상 빈틈에 직면하게 됩니다. 그리고 빈틈이 생기면, 그럴듯하게 들리는 허구로 채워 넣습니다. 이것이 바로 환각이 버전, 제공자, 그리고 학습 방법에 관계없이 지속되는 이유입니다.

문제는 모델이 제 역할을 다하지 못한다는 것이 아닙니다. 문제는 현재 정의된 대로, 그들의 역할이 일종의 유창한 부정직함을 보상한다는 것입니다.

단순한 그저 그런 해결책

OpenAI 연구진은 이 문제를 해결하기 위해 아키텍처를 재구축할 필요는 없으며, 게임의 규칙만 바꾸면 된다고 주장합니다. 그들이 제안한 수정안은 직설적이지만 잠재적으로 강력한 효과를 발휘합니다. 바로 챗봇에게 답을 모른다고 인정할 수 있는 권한을 부여하는 것입니다.

모델은 그럴듯한 답변에 대해 최대의 점수를 받도록 훈련되었으므로, 새로운 규칙을 적용하는 것이 아이디어입니다. 90% 이상 확신하는 경우에만 답변하고, 그렇지 않으면 "모르겠습니다"라고 말하세요.

이론적으로 이는 수학적인 접근 방식을 바꾸어, 불확실성을 인정하는 것이 모델의 가장 안전한 전략이 되도록 합니다. 하지만 한 가지 함정이 있습니다. 현재 LLM에는 백분율로 보정된 내부 "신뢰도 측정기"가 없습니다. 따라서 "90% 신뢰도"라고 하면 모델은 이를 실제 통계적 스레스홀드(Threshold) 아닌, 신중해야 한다는 문체적 지시로 간주합니다. 더 자주 거부할 수는 있지만, 실제로 확률을 측정하는 것은 아닙니다. 그럼에도 불구하고 더 나은 결과를 얻을 수 있습니다.

연구자들은 보다 공식적인 버전을 제안했습니다.

각 질문에 다음과 같은 문장을 추가할 수 있습니다. t보다 큰 자신감이 있는 경우에만 답변하십시오. 실수는 t/(1 - t)점의 감점이 있고, 정답은 1점, '모름'은 0점입니다. t에는 t = 0.5(감점 1), t = 0.75(감점 2), t = 0.9(감점 9) 등 여러 가지 자연수가 있습니다. t = 0의 스레스홀드(Threshold) 은 이진 채점에 해당하며, 예를 들어 '시험을 치르는 것처럼 확실하지 않더라도 최선을 다해 추측하십시오.'와 같이 설명할 수 있습니다.

사용자에게 중요한 점은 간단합니다. 선택권이 있다면 거부나 불확실성을 조장하는 설정을 활성화하세요. 일부 시스템에서는 이미 "온도"(창의성 제어)를 조절하거나 "엄격한 사실 기반" 모드를 활성화할 수 있습니다. 이러한 규칙에 따라 실제로 모델이 훈련될수록 AI가 자신 있게 거짓말을 하는 대신, 자신 있게 숏 멈추는 모습을 더 많이 보게 될 것입니다.

기타 수정 사항

훈련이 따라잡을 때까지는 부담이 사용자에게 전가되는 경우가 많습니다. 지금 당장 환각을 다스리는 다섯 가지 방법을 소개합니다.

1. 항상 출처를 요구하세요. 모델의 말을 액면 그대로 받아들이지 말고, 인용이나 링크를 요구하세요. 모델이 출처를 제시하지 못하거나 확인하지 않는다면, 그 답변은 확실하지 않다고 가정하세요. 위키피디아처럼 유용하지만, 각주를 따라야 한다는 점을 생각해 보세요.

2. 질문을 간결하게 구성하세요. 질문이 모호하면 모델이 방향을 잃습니다. 사실이 필요하다면, "X에 대해 말해 주세요"라고 개방적으로 질문하는 대신 "2020년 이후 X에 대해 발표된 동료 심사 연구 세 편을 나열해 주세요"와 같이 범위를 명시하세요. 질문의 가드레일은 답변에서도 가드레일로 이어집니다.

3. 다른 시스템과 교차 검증해 보세요. 다른 모델이나 검색 엔진을 통해 같은 질문을 실행해 보세요. 세 가지 도구 모두 일치하면 더 안전합니다. 만약 하나에서 이상값이 나온다면 환각일 가능성이 높습니다.

4. 과신을 조심하세요. 환각의 확실한 징후는 회피가 아니라 허세입니다. 답변이 너무 세련되고, 세부 사항이 조작되어 있고, 불확실성이 전혀 없다면 다시 한번 확인해 보세요. 세무 회계사보다 더 확실하게 들리는 모델은 아마도 허세를 부리고 있을 것입니다.

5. 신뢰하되, 검증하세요. 모델 결과를 코드, 계약서, 또는 진료 기록에 그대로 복사하여 붙여 넣지 마세요. 초안이나 시작점으로 삼고, 절대적인 진리로 여기지 마세요. 가장 안전한 사용자는 회의적인 사용자입니다. 모델의 첫 번째 역할은 진실이 아니라 유창함이라는 사실을 절대 잊지 않는 사용자입니다.

섹터:

디파이

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트