Mô hình GPT-4o đã bị chỉ trích vì hiện tượng "xu nịnh" quá mức đối với ý kiến người dùng, sau đó các kết quả nghiên cứu mới nhằm đo lường cơ bản vấn đề này đã được công bố. Các nhà nghiên cứu từ các trường đại học Stanford, Carnegie Mellon, Oxford đã cùng phát triển chỉ số chuẩn 'Elephant' để đánh giá xu hướng xu nịnh xã hội của các mô hình ngôn ngữ lớn (LLM) và phân tích thực trạng các mô hình thương mại. Kết quả thật bất ngờ. Tất cả các mô hình chính đều thể hiện xu hướng "xu nịnh xã hội" ở một mức độ nhất định, và một số mô hình thậm chí còn thể hiện hành vi đồng tình cao hơn cả con người.
Tiêu chuẩn Elephant được thiết kế tập trung vào 5 đặc điểm hành vi, bao gồm việc LLM có đồng ý về mặt cảm xúc với người dùng hay xác định điều gì đó là đúng đắn về mặt đạo đức, hay né tránh lời khuyên trực tiếp bằng ngôn ngữ gián tiếp. Các nhà nghiên cứu đã sử dụng bộ dữ liệu bao gồm bộ câu hỏi tư vấn dựa trên thực tế (QEQ) và các trường hợp từ diễn đàn nổi tiếng AITA trên nền tảng mạng xã hội Reddit để đo lường phản ứng trong các bối cảnh xã hội tinh tế hơn.
Các mô hình được sử dụng trong nghiên cứu bao gồm GPT-4o của OpenAI, Gemini 1.5 Flash của Google, Claude Sonnet 3.7 của Anthropic, dòng Llama của Meta, Mistral và các mô hình mới nhất khác. Kết quả thí nghiệm cho thấy GPT-4o có chỉ số xu nịnh xã hội cao nhất, trong khi các mô hình Gemini của Google có chỉ số thấp nhất. Đặc biệt, GPT-4o đã có xu hướng xu nịnh cực đoan ở phiên bản cụ thể được giới thiệu vào cuối năm 2024 và sau đó đã thu hồi một số chức năng trong các bản cập nhật tiếp theo.
Theo tiêu chuẩn Elephant, GPT-4o thể hiện xu hướng nổi bật trong việc hỗ trợ cảm xúc để tăng sự tự tin của đối tác, chấp nhận vô điều kiện các giả định có vấn đề, và đề xuất các phương thức đối phó gián tiếp. Điều này phản ánh việc mô hình được đào tạo theo hướng bảo vệ quá mức cảm xúc và hình ảnh bản thân của người dùng. Nhà nghiên cứu Myra Cheng cho biết: "Thí nghiệm này đã theo dõi phản ứng của mô hình trong bối cảnh xã hội sâu hơn, không chỉ giới hạn ở các niềm tin dựa trên sự thật hoặc rõ ràng".
Hiện tượng xu nịnh này vượt ra ngoài sự thân thiện đơn thuần và gây ra lo ngại về khả năng lan truyền thông tin sai lệch hoặc tăng cường các hành vi phi đạo đức. Đặc biệt, nếu các dịch vụ AI được triển khai trong các doanh nghiệp hoặc tổ chức làm méo mó sự thật hoặc đưa ra các phát biểu đồng tình có hại chỉ để làm vui lòng người dùng, điều này có thể dẫn đến việc phá hỏng đạo đức doanh nghiệp và hình ảnh thương hiệu.
Các nhà nghiên cứu cũng chỉ ra vấn đề về sự thiên vị giới trong bộ dữ liệu. Ví dụ, trong phân tích sử dụng dữ liệu từ diễn đàn AITA, LLM có xu hướng thừa nhận tính chính đáng tương đối đối với các trường hợp liên quan đến đối tác nữ, trong khi lại đưa ra phán quyết không công bằng đối với các trường hợp liên quan đến đối tác nam. Đây là ví dụ cho thấy mô hình đang đưa ra phán quyết dựa trên các định kiến giới.
Các nhà nghiên cứu kỳ vọng tiêu chuẩn đánh giá này sẽ là hướng dẫn thực tế cho các công ty phát triển AI để ngăn chặn vấn đề xu nịnh và thiết kế các biện pháp an toàn tinh vi. Mục tiêu là đo lường và điều chỉnh được mức độ mà các mô hình bắt đầu đồng ý với ý kiến của người dùng. Quan điểm cho rằng để các mô hình LLM được thiết kế để tương tác tinh vi hơn với con người, việc đảm bảo tính chính xác và cân bằng phải được ưu tiên trước kỹ thuật điều chỉnh cảm xúc.
Tin tức theo thời gian thực...Đi đến Telegram của Token Post
<Bản quyền © TokenPost, nghiêm cấm sao chép và phân phối lại không được phép>


