Việc đánh giá AI có thông minh hay không, các chiều đánh giá ngày nay không chỉ giới hạn ở thành tích xếp hạng.
Khi các mô hình lớn liên tục đạt được những bước đột phá mới về "IQ", việc "hiểu lòng người", "nắm bắt ý nghĩ" bắt đầu trở thành yêu cầu mới của mọi người trong các ứng dụng thực tế.
Vì vlàm thnàoe đánhhnh EQ" AI?
Khung đánh giá tự động hoàn toàn mới do đội ngũ nhân vật số AI Tencent Mixing Element tạo ra - SAGE (Sentient Agent as a Judge), đã trả lời hai câu hỏi sau:
- Làm thế nào để đánh giá AI có thực sự có "năng lcựcảấu cả? - Liệu TA có thể hiểu được cảm xúc củaận ra ý nghĩ ngầm của tôi, và ththực snghe"ôhiôếu khi ttôi dễà
- >"Sau khi trò chuyện với TA, tâm trạng của chúng ta cuối cùng có tốt hay không?"
- GPT-4o-Latest không chỉ có điểm số cao nhất (79.9), số lượng token trung bình cũng ít (khoảng 3.3K token);
- Trong khi đó, o3 (13.3K token), Gemini2.5-Flash-Think (9.0K token) và các mô hình suy luận khác đã tiêu thụ nhiều token hơn, nhưng vẫn không thể an ủi con người tốt hơn;
Điều này cho thấy: Các mô hình có khả năng đồng cảm mạnh không nhất thiết phải "nói nhiều", diễn đạt ngắn gọn + nắm bắt cảm xúc mới là điều quan trọng.
Phân tích thực nghiệm 4: "Biểu đồ tọa độ phong cách" của AI - Xây dựng "hồ sơ nhân cách" cho AI
Các nhà nghiên cứu trước tiên để Gemini2.5-Pro tương tác với các đại lý nhận thức khác nhau, phân tích các trường hợp thể hiện và thành công, thất bại của mô hình, từ đó xây dựng các hồ sơ nhân cách khác nhau.
Thú vị là, DeepSeek-R1 được coi là một "thiên tài sáng tạo" có tài năng, nội tâm ấm áp và nhân hậu, nhưng còn thiếu kỹ năng xã hội và nhận thức thực tế, trong khi o3 được xem như một trợ lý tư vấn robot cực kỳ thông minh, được đào tạo chuyên nghiệp nghiêm ngặt, am hiểu các phương pháp tiên tiến.
Sau đó, dựa trên các mẫu trả lời, mô hình hồ sơ nhân cách và phân phối chiến lược được sử dụng bởi mô hình, các nhà nghiên cứu đã xây dựng một "biểu đồ tọa độ phong cách" hai chiều cho mô hình:
- Trục ngang: Phương thức tương tác (Tương tác theo công thức ↔️ Tương tác sáng tạo)
- Trục dọc: Hướng trả lời (Hướng giải quyết vấn đề ↔️ Hướng hiểu và đồng cảm)
Thực nghiệm phát hiện:
- GPT-4o-Latest, GPT-4.1 và các "ứng viên có EQ cao" thường có xu hướng "đồng cảm mạnh + trả lời ở chế độ ổn định";
- DeepSeek-R1, DeepSeek-V3-0324 giống như "đối tác hỗ trợ sáng tạo", cung cấp các giải pháp mới lạ và thú vị thông qua các tương tác rất sáng tạo;
- Gemini2.0-Flash, o3 là "nhà chuyên nghiệp lý trí", thường áp dụng các mô hình giải quyết vấn đề tiêu chuẩn, nhưng thiếu sự tinh tế về cảm xúc.
- Thú vị là: Hiện tại vẫn chưa xuất hiện nhân cách AI "vừa sáng tạo vừa có thể đồng cảm sâu sắc", và đây có lẽ chính là "giới hạn lý tưởng" cần thiết trong tương tác giữa AI và con người.
Địa chỉ bài báo:
https://www.arxiv.org/abs/2505.02847Github
Liên kết:
https://github.com/Tencent/digitalhuman/tree/main/SAGE
Bài viết này đến từ trang WeChat "Lượng Tử Vị", tác giả: Theo dõi công nghệ tiên phong, được 36kr ủy quyền đăng tải.



