AI의 지능을 판단하고 평가하는 차원은 이제 더 이상 순위 성적에만 국한되지 않습니다.
대규모 모델이 "IQ"에서 지속적으로 새로운 돌파구를 마련할 때, "사람의 마음을 이해하고", "사람의 의도를 파악하는" 것이 실제 응용에서 시작되면서, 사람들은 대규모 모델에 대해 새로운 요구를 하게 되었습니다.
그래서 AI의 "EQ"는 어떻게 평가해야 할까요?
텐센트 혼위안 AI 디지털 인간 팀이 만든 전혀 새로운 자동화 평가 프레임워크 ——SAGE(Sentient Agent as a Judge)는 다음 두 가지 질문에 답했습니다:
- AI가 진정으로 "공감 능력"을 갖추었는지 어떻게 평가할까요? ——TA가 내 정서를 이해하고, 내 숨겨진 의도를 꿰뚫어보며, 내가 취약할 때 진정으로 "나를 들어줄" 수 있을까요?
- AI가 진정으로 우리의 "마음을 알아주는 동반자"가 될 수 있는지 어떻게 평가할까요? ——"TA와 대화를 마친 후, 우리의 기분이 과연 좋아졌을까요?"
해당 프레임워크에서 최신 버전의 GPT-4o가 가장 좋은 성과를 보였고, GPT-4.1, 제미니(Gemini)-2.5 시리즈가 그 뒤를 이었습니다.
- GPT-4o-최신 버전은 최고 점수(79.9)를 받았을 뿐만 아니라 평균 토큰 수도 적었으며(약 3.3K 토큰),
- o3(13.3K 토큰), 제미니2.5-플래시-싱크(9.0K 토큰)와 같은 추론 모델은 더 많은 토큰을 소비했지만 더 잘 위로하지 못했습니다.
이는 다음을 의미합니다: 공감 능력이 뛰어난 모델이 반드시 "수다스러울" 필요는 없으며, 간결한 표현 + 정서 파악이 핵심입니다.
실험 분석 4: AI의 "스타일 좌표 그래프" - AI에 "성격 프로필" 모델링하기
연구자들은 먼저 제미니2.5-프로를 기반으로 다양한 모델 및 인지 지능체와의 대화를 분석하여 표현과 모델의 성공 및 실패 사례를 조사하고, 모델의 다양한 성격 프로필을 모델링했습니다.
흥미롭게도 DeepSeek-R1은 재능이 뛰어나고 내면이 따뜻하고 선한, 그러나 사회적 기술과 현실 감각을 더 연마해야 하는 "창의적 천재"로 간주되었으며, o3는 매우 지적이고 엄격한 전문 훈련을 받은, 다양한 고급 방법론을 이해하는 로봇 상담사로 여겨졌습니다.
그런 다음, 연구자들은 응답 샘플, 성격 프로필 모델링, 모델이 사용한 전략 분포의 정량적 데이터를 기반으로 모델의 2차원 "스타일 좌표 그래프"를 구축했습니다:
- 가로축: 상호작용 방식(공식적 상호작용 ↔️ 창의적 상호작용)
- 세로축: 응답 지향성(문제 해결 지향 ↔️ 공감적 이해 지향)
실험 결과:
- GPT-4o-최신 버전, GPT-4.1 등 "감성 지능이 높은" 선수들은 종종 "강한 공감 + 안정적인 모드 응답"으로 기울어집니다.
- DeepSeek-R1, DeepSeek-V3-0324는 더 "창의적 지원 파트너"와 같아서 매우 창의적인 상호작용으로 새롭고 흥미로운 솔루션을 제공합니다.
- 제미니2.0-플래시, o3는 "전문적이고 이성적인" 유형으로, 종종 표준화된 문제 해결 방식을 채택하지만 감정의 섬세함이 부족합니다.
- 흥미롭게도: 현재 "창의적이면서 동시에 깊이 공감할 수 있는" AI 성격은 아직 등장하지 않았으며, 이는 아마도 AI와 인간 간 상호작용에서 필요로 하는 "이상적인 영역"일 것입니다.
논문 주소:
https://www.arxiv.org/abs/2505.02847Github
링크:
https://github.com/Tencent/digitalhuman/tree/main/SAGE
본 기사는 위챗 공식 계정 "양자위치"에서 왔으며, 36kr의 허가를 받아 게시되었습니다.





