Technion, Google Research 및 Apple의 새로운 연구에 따르면 대규모 언어 모델(LLM)이 예상보다 정확성에 대한 깊은 이해를 가지고 있다는 것을 보여줍니다.
대규모 언어 모델(LLMs)의 큰 문제 중 하나는 잘못되거나 무의미한 출력을 생성하는 경향이 있다는 것으로, 이를 "환각" 현상이라고 합니다. "환각"이라는 용어에는 아직 일반적인 정의가 없으며, LLM의 다양한 오류를 포함합니다.
이번 연구에서 연구자들은 광범위한 해석을 적용했습니다. 즉, 환각을 LLM이 생성하는 모든 오류, 즉 사실에 대한 오류, 편향 및 현실 세계의 기타 오류로 간주했습니다.
이전 대부분의 연구는 LLMs의 외부 행동과 사용자가 이러한 오류를 인식하는 방식에 초점을 맞추었지만, 이번 새로운 연구는 LLMs의 내부 작동 방식, 특히 "정답 토큰"인 응답 토큰을 조사하여 출력의 정확성을 평가했습니다.
연구자들은 Mistral 7B와 Llama 2 모델의 4가지 변형을 10개의 데이터 세트에서 실험했으며, 정답 토큰에 정확성 관련 정보가 집중되어 있음을 발견했습니다. 그들은 출력의 정확성 특성을 예측하도록 훈련된 분류 모델을 사용하면 오류 탐지 능력이 크게 향상된다는 것을 발견했습니다.
"이러한 패턴은 거의 모든 데이터 세트와 모델에서 일관되게 나타나, LLMs가 텍스트 생성 과정에서 정확성을 어떻게 인코딩하고 처리하는지에 대한 일반적인 메커니즘을 보여줍니다." 라고 연구자들은 말했습니다.
연구자들은 "탐색 분류기" 모델을 훈련시켜 LLM의 내부 활동을 기반으로 생성된 결과의 정확성 관련 특성을 예측함으로써 "환각 현상"을 예측했습니다. 이러한 모델을 "정답 토큰"에 대해 훈련시키면 오류 탐지 성능이 크게 향상되었습니다.
또한 연구자들은 한 데이터 세트에서 훈련된 분류기가 다른 데이터 세트의 오류를 탐지할 수 있는지 조사했습니다. 이 분류기들은 다른 작업에 일반화되지 않지만, 유사한 기술이 필요한 작업에는 일반화될 수 있다는 것을 발견했습니다.
추가 실험을 통해 탐색 분류기가 오류의 존재뿐만 아니라 모델이 범할 가능성이 있는 오류 유형도 예측할 수 있다는 것을 발견했습니다. 이 발견은 모델의 내부 활동이 올바른 답변을 결정할 수 있지만, 모델이 종종 잘못된 답변을 생성한다는 것을 보여줍니다. 이는 현재의 평가 방법이 이러한 모델의 실제 능력을 정확하게 반영하지 못할 수 있음을 시사합니다.
마지막으로, 연구 결과는 현재의 평가 방법이 LLMs의 실제 능력을 정확하게 반영하지 못할 수 있다는 것을 보여줍니다. 이러한 모델의 내부 지식을 더 잘 이해하고 활용하면 오류를 크게 줄일 수 있습니다.
이 연구 결과는 환각 감소 시스템을 더 잘 설계하는 데 도움이 될 수 있습니다. 그러나 이 연구에서 사용된 기술은 내부 표현에 대한 액세스를 요구하므로, 주로 오픈 소스 모델에서 실현 가능합니다.
OpenAI, Anthropic, Google DeepMind 등 선도적인 AI 연구소들은 언어 모델의 내부 작동 방식을 해석하는 다양한 기술을 개발해 왔습니다. 이러한 연구는 더 신뢰할 수 있는 시스템을 구축하는 데 도움이 될 수 있습니다.