오트맨이 대규모 모델을 사용하는 방법이 잘못되었을까?
워튼 경영대학원 등의 기관의 최신 연구에 따르면, 오트맨이 좋아하는 "직접 답변" 프롬프트가 모델의 정확도를 현저하게 낮출 수 있다고 합니다.
하지만 다른 한편으로, 이 연구는 프롬프트에 사고 사슬(CoT) 명령을 추가하는 것도 효과적이지 않다는 것을 발견했습니다.
CoT 프롬프트는 추론 모델에 대해 효과 향상이 없을 뿐만 아니라 오히려 시간과 계산 비용을 증가시킵니다.
일부 최첨단 비추론 모델의 경우, CoT 프롬프트는 효과 향상을 가져올 수 있지만 답변의 불안정성도 함께 증가합니다.
연구팀은 GPQA Diamond 데이터셋을 사용하여 현재 주류 추론 및 비추론 모델을 대상으로 CoT 활성화 및 비활성화 상황에서 테스트를 진행했습니다.
결과적으로 추론 모델의 경우, CoT의 효과는 매우 제한적이었습니다. 예를 들어 o3-mini의 경우, CoT로 인한 정확도 향상은 4.1%에 불과했지만 시간은 80% 증가했습니다.
비추론 모델의 결과는 좀 더 복잡하지만, 결국 CoT 사용 여부는 수익과 투입에 대해 신중하게 고려해야 합니다.
그렇다면 CoT를 사용해야 할까요?
실제로 이 연구는 사용자 프롬프트의 CoT 명령에 초점을 맞추었으며, 시스템 프롬프트 설정은 포함하지 않았고 CoT 자체를 부정하는 것은 아닙니다.
CoT 프롬프트의 효과는 제한적이며 오히려 역효과를 낼 수 있음
이 연구는 GPQA Diamond 데이터셋을 기준 테스트 도구로 사용했으며, 이 데이터셋은 대학원 수준의 전문가 추론 문제를 포함하고 있습니다.
실험 과정에서 연구팀은 다음 모델들을 테스트했습니다:
- 추론 모델: o4-mini, o3-mini, 제미니(Gemini) 2.5 Flash
- 비추론 모델: Claude 3.5 Sonnet 3.5, 제미니(Gemini) 2.0 Flash, GPT-4o-mini, GPT-4o, 제미니(Gemini) Pro 1.5
각 모델에 대해 연구팀은 세 가지 실험 환경을 설정했습니다:
- 강제 추론: 모델에게 답변 전 단계별로 사고하도록 지시(단계별로 생각하기);
- 직접 답변: 모델에게 어떤 설명이나 사고 없이 답변만 제공하도록 명확히 지시;
- 기본값: 특정 후미 지시어를 제공하지 않고 모델이 스스로 문제에 답하도록 함.
결과의 신뢰성을 보장하기 위해 각 문제는 각 조건에서 25번 테스트되었으며, 즉 각 모델은 동일한 문제에 대해 75번의 답변을 제공했습니다.
각 실험 설정에 대해 연구팀은 네 가지 지표를 통계 냈습니다:
- 100% 정확도: 동일한 문제의 25번 시도 중 모두 정답인 경우 "성공"으로 간주, "성공" 횟수를 문제 수로 나눈 값;
- 90% 정확도: 25번 시도 중 최소 23번 정답인 경우, 인간이 용인할 수 있는 오류율에 근접;
- 51% 정확도: 단순 다수결 원칙, 25번 시도 중 최소 13번 정답인 경우 성공으로 간주;
- 평균 점수: 정답을 직접 계산하고 총 시도 횟수로 나눈 전체 정확도.
결과, 비추론 모델의 경우, CoT는 직접 답변에 비해 모든 모델의 평균 점수와 "51% 정확" 지표에서 향상을 보였습니다.
그중 제미니(Gemini) Flash 2.0의 향상이 가장 두드러졌고, Claude 3.5 Sonnet가 그 뒤를 이었으며, GPT-4o와 4o-mini는 향상이 미미했습니다.
하지만 100%와 90% 정확도 지표에서는 비추론 상태와 비교해 CoT 프롬프트 후 제미니(Gemini) 계열 두 모델과 4o-mini의 지표가 오히려 하락했습니다.
이는 CoT가 전반적으로 모델의 정확도를 높이지만 동시에 답변의 불안정성도 증가시킨다는 것을 의미합니다.
강제 CoT와 기본 모드를 비교하면 CoT의 효과가 직접 답변에 비해 명백히 더 약하며, 이러한 결과는 일부 모델에 이미 사고 사슬이 내장되어 있기 때문일 수 있습니다.
추론 모델의 경우 CoT 프롬프트의 효과는 더욱 제한적이었습니다.
o3-mini와 o4-mini의 경우, CoT 프롬프트는 직접 답변에 비해 매우 적은 향상을 보였고, 제미니(Gemini) 2.5 Flash는 모든 지표에서 전반적으로 하락했습니다.
예를 들어 평균 점수에서 o3-mini는 2.9 포인트, o4-mini는 3.1 포인트 상승했습니다.
반면 소요 시간은 크게 증가했습니다. o4-mini는 약 20% 증가했고, o3-mini는 80% 이상 증가했습니다.
성능이 좋은 비추론 모델의 경우 시간 증가도 더욱 두드러졌습니다.
서두의 작성자가 오트맨을 비판한 트윗과 결합해 보면, 모델은 여전히 "사고할 때" 가장 좋은 성능을 보이지만, 최첨단 모델 중 추론 모델은 본래 추론 과정이 내장되어 있고, 일부 비추론 모델의 내장 프롬프트에도 CoT 관련 내용이 포함되어 있어 이러한 "사고"는 더 이상 추가 프롬프트를 통해 구현할 필요가 없습니다.
따라서 모델 애플리케이션을 직접 사용하는 사용자의 경우, 기본 설정이 이미 매우 좋은 사용 방식입니다.
보고서 주소:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
본 기사는 위챗 공식 계정 "량자위"에서 작성되었으며, 작성자는 크레시, 36커에서 허가를 받아 게재되었습니다.





