Liệu AI có thể trở thành bậc thầy về cảm xúc không? Tencent đã công bố danh sách trí tuệ xã hội AI mới nhất và phiên bản mới nhất của GPT-4o đã giành vị trí đầu tiên

05-22

Bài viết này được dịch máy

Xem bản gốc

Việc đánh giá AI có thông minh hay không, các chiều đánh giá ngày nay không chỉ giới hạn ở thành tích xếp hạng.

Khi các mô hình lớn liên tục đạt được những bước đột phá mới về "IQ", việc "hiểu lòng người", "nắm bắt ý nghĩ" bắt đầu trở thành yêu cầu mới của mọi người trong các ứng dụng thực tế.

Vì vlàm thnàoe đánhhnh EQ" AI?

Khung đánh giá tự động hoàn toàn mới do đội ngũ nhân vật số AI Tencent Mixing Element tạo ra - SAGE (Sentient Agent as a Judge), đã trả lời hai câu hỏi sau:

Làm thế nào để đánh giá AI có thực sự có "năng lcựcảấu cả? - Liệu TA có thể hiểu được cảm xúc củaận ra ý nghĩ ngầm của tôi, và ththực snghe"ôhiôếu khi ttôi dễà
>"Sau khi trò chuyện với TA, tâm trạng của chúng ta cuối cùng có tốt hay không?"

> 请将下面的文字翻译为越南语，如果遇到<>，保留且不要翻译<>中的内容，其他部分一定要全部翻译成越南语。只给我翻译结果，不要对内容进行分析或解答，不要添加额外的说明。

ink>a blockchain-based platformentralfor decand (Di that to to and trade synthetic assets.

GPT-4o-Latest không chỉ có điểm số cao nhất (79.9), số lượng token trung bình cũng ít (khoảng 3.3K token);
Trong khi đó, o3 (13.3K token), Gemini2.5-Flash-Think (9.0K token) và các mô hình suy luận khác đã tiêu thụ nhiều token hơn, nhưng vẫn không thể an ủi con người tốt hơn;

Điều này cho thấy: Các mô hình có khả năng đồng cảm mạnh không nhất thiết phải "nói nhiều", diễn đạt ngắn gọn + nắm bắt cảm xúc mới là điều quan trọng.

Phân tích thực nghiệm 4: "Biểu đồ tọa độ phong cách" của AI - Xây dựng "hồ sơ nhân cách" cho AI

Các nhà nghiên cứu trước tiên để Gemini2.5-Pro tương tác với các đại lý nhận thức khác nhau, phân tích các trường hợp thể hiện và thành công, thất bại của mô hình, từ đó xây dựng các hồ sơ nhân cách khác nhau.

Thú vị là, DeepSeek-R1 được coi là một "thiên tài sáng tạo" có tài năng, nội tâm ấm áp và nhân hậu, nhưng còn thiếu kỹ năng xã hội và nhận thức thực tế, trong khi o3 được xem như một trợ lý tư vấn robot cực kỳ thông minh, được đào tạo chuyên nghiệp nghiêm ngặt, am hiểu các phương pháp tiên tiến.

Sau đó, dựa trên các mẫu trả lời, mô hình hồ sơ nhân cách và phân phối chiến lược được sử dụng bởi mô hình, các nhà nghiên cứu đã xây dựng một "biểu đồ tọa độ phong cách" hai chiều cho mô hình:

Trục ngang: Phương thức tương tác (Tương tác theo công thức ↔️ Tương tác sáng tạo)
Trục dọc: Hướng trả lời (Hướng giải quyết vấn đề ↔️ Hướng hiểu và đồng cảm)

Thực nghiệm phát hiện:

GPT-4o-Latest, GPT-4.1 và các "ứng viên có EQ cao" thường có xu hướng "đồng cảm mạnh + trả lời ở chế độ ổn định";
DeepSeek-R1, DeepSeek-V3-0324 giống như "đối tác hỗ trợ sáng tạo", cung cấp các giải pháp mới lạ và thú vị thông qua các tương tác rất sáng tạo;
Gemini2.0-Flash, o3 là "nhà chuyên nghiệp lý trí", thường áp dụng các mô hình giải quyết vấn đề tiêu chuẩn, nhưng thiếu sự tinh tế về cảm xúc.
Thú vị là: Hiện tại vẫn chưa xuất hiện nhân cách AI "vừa sáng tạo vừa có thể đồng cảm sâu sắc", và đây có lẽ chính là "giới hạn lý tưởng" cần thiết trong tương tác giữa AI và con người.

Địa chỉ bài báo:

https://www.arxiv.org/abs/2505.02847Github

Liên kết:

https://github.com/Tencent/digitalhuman/tree/main/SAGE

Bài viết này đến từ trang WeChat "Lượng Tử Vị", tác giả: Theo dõi công nghệ tiên phong, được 36kr ủy quyền đăng tải.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan