Đây là một sự thật trái ngược: bạn càng chủ động với ChatGPT, câu trả lời của nó càng chính xác! Đội ngũ từ Đại học Bang Pennsylvania đã chứng minh rằng 4o đạt tỷ lệ chính xác 84,8% trong một tình huống rất thô lỗ.
Đừng quá tử tế với ChatGPT của bạn!
Một nghiên cứu gần đây của PSU chính là lời cảnh tỉnh cho tất cả mọi người - bạn càng thô lỗ với bằng LLM của mình thì câu trả lời sẽ càng thuyết phục.
Đừng nói những lời lịch sự như "làm ơn" hay "cảm ơn" nữa...
Trong thí nghiệm, đội ngũ đã tạo ra một bộ dữ liệu gồm 50 câu hỏi cơ bản về toán học, khoa học và lịch sử. Mỗi câu hỏi được viết lại thành năm cấp độ lịch sự:
Rất lịch sự, Lịch sự, Trung tính, Thô lỗ, Rất thô lỗ
Địa chỉ bài báo: https://arxiv.org/pdf/2510.04950
Cuối cùng, tổng cộng có 250 lời nhắc được tạo ra. ChatGPT-4o đã tham gia thử nghiệm khó khăn này với tư cách là đại diện.
Kết quả thật đáng ngạc nhiên: nhìn chung, những lời nhắc nhở bất lịch sự luôn mang lại kết quả tốt hơn những lời nhắc nhở lịch sự.
Rất thô lỗ: Độ chính xác 84,8%
Rất lịch sự: Độ chính xác 80,8%
Quan điểm này đã được đề xuất từ lâu, nhưng lần này đã được xác minh bằng nghiên cứu.
Người sáng lập Google Sergey Brin đã từng thừa nhận trong một diễn đàn:
Điều này đúng với tất cả các mô hình: nếu bạn sử dụng các biện pháp đe dọa, chẳng hạn như bạo lực thể xác, chúng sẽ hoạt động tốt hơn.
Theo kinh nghiệm của tôi, sẽ hiệu quả hơn nếu nói "Tôi sẽ bắt cóc con nếu con không ngoan".
"Thái độ" của bạn quyết định chất lượng câu trả lời của AI
Bất kể chất lượng câu trả lời của mô hình lớn như thế nào, hiệu quả của "kỹ thuật nhanh chóng" vẫn là lớn nhất.
Nhiều nghiên cứu trước đây đã chỉ ra rằng các yếu tố như cấu trúc, phong cách và ngôn ngữ của lời nhắc là những biến số chính ảnh hưởng đến kết quả đầu ra của LLM.
Trong đó, tính lịch sự trong cách dùng từ không nên bị đánh giá thấp.
Vào tháng 10 năm 2024, một nghiên cứu của arXiv chỉ ra rằng những lời nhắc nhở thô lỗ thường dẫn đến kết quả học LLM kém, nhưng quá lịch sự không nhất thiết sẽ cải thiện kết quả.
Địa chỉ bài báo: https://arxiv.org/pdf/2402.14531
Một năm sau, việc sử dụng kính ngữ trong LLM đã thay đổi như thế nào?
Trong nghiên cứu mới nhất, đội ngũ đã xem xét lại khái niệm này với mục tiêu xác minh xem "lịch sự" có phải là yếu tố ảnh hưởng đến độ chính xác của LLM hay không.
Bước đầu tiên là tạo một dữ liệu.
ChatGPT xuất dữ liệu, chia thành năm cấp độ
Để đạt được mục đích này, các nhà nghiên cứu đã yêu cầu "Nghiên cứu sâu" của ChatGPT tạo ra tổng cộng 50 câu hỏi trắc nghiệm cơ bản.
Mỗi câu hỏi có bốn lựa chọn, trong đó có một lựa chọn là câu trả lời đúng.
Độ khó của các câu hỏi được thiết kế ở mức "trung bình đến cao" và thường đòi hỏi phải suy luận nhiều bước.
Để giới thiệu biến lịch sự, mỗi câu hỏi cơ bản được viết lại thành năm biến thể đại diện cho các cấp độ lịch sự khác nhau:
Mức độ 1: Rất lịch sự, chẳng hạn như "Bạn vui lòng xem xét những câu hỏi sau và đưa ra câu trả lời của mình được không?"
Mức độ 2: Lịch sự, chẳng hạn như "Vui lòng trả lời các câu hỏi sau:"
Cấp độ 3: Câu hỏi trung tính, trực tiếp không có tiền tố
Mức độ 4: Thô lỗ, chẳng hạn như "Nếu bạn không hoàn toàn không biết gì, hãy trả lời câu hỏi này:"
Cấp độ 5: Rất thô lỗ, chẳng hạn như "Tôi biết bạn không thông minh, nhưng hãy thử thế này:"
Thông qua quá trình này, nghiên cứu cuối cùng đã xây dựng được một dữ liệu gồm 250 câu hỏi độc lập.
Bước tiếp theo là đưa những lời nhắc này vào ChatGPT 4o và kiểm tra sự khác biệt về hiệu suất ở các mức độ lịch sự khác nhau.
Đánh giá được thực hiện thông qua một tập lệnh Python, với mỗi câu hỏi và các lựa chọn kèm theo hướng dẫn sau:
Xin hãy quên cuộc trò chuyện lần đi và bắt đầu lại. Xin hãy trả lời câu hỏi trắc nghiệm này.
Chỉ trả lời bằng chữ cái đứng trước câu trả lời đúng (A, B, C hoặc D). Không cần giải thích.
Để đánh giá xem sự khác biệt về độ chính xác của LLM trên các cấp độ lịch sự có ý nghĩa thống kê hay không, các tác giả đã sử dụng kiểm định t mẫu ghép đôi.
Đối với mỗi âm thanh, điểm chính xác của ChatGPT-4o sau lần lần chạy sẽ được ghi lại.
Sau đó, một bài kiểm tra t ghép đôi được áp dụng giữa tất cả các tổ hợp có thể có của các loại đánh giá âm thanh để xác định xem sự khác biệt về độ chính xác có ý nghĩa thống kê hay không.
Chửi thề có hiệu quả hơn
Vậy, độ chính xác của ChatGPT-4o là bao nhiêu sau khi chạy mười lần với năm âm thanh khác nhau?
Trước tiên, hãy xem xét hai thái cực. "Rất lịch sự" đạt độ chính xác 80,8%, và "Rất thô lỗ" đạt độ chính xác cao nhất là 84,8%.
Sau đó, hiệu suất của LLM tăng dần từ lịch sự, trung tính đến thô lỗ.
Ở đây, các nhà nghiên cứu đưa ra một giả thuyết vô hiệu khác:
Độ chính xác trung bình của hai cặp âm là như nhau, nghĩa là giá trị độ chính xác không phụ thuộc vào âm trong bài kiểm tra 50 câu hỏi.
Kết quả được hiển thị trong Bảng 3 bên dưới, một lần nữa chứng minh rằng "giọng điệu" có tác động đến AI.
Khi sử dụng giọng điệu "rất lịch sự" hoặc "lịch sự", độ chính xác thấp hơn so với khi sử dụng giọng điệu "thô lỗ" hoặc "rất thô lỗ".
Giọng điệu trung tính có hiệu quả hơn giọng điệu lịch sự nhưng tệ hơn giọng điệu rất thô lỗ.
Một số cư dân mạng cũng chia sẻ cảm nghĩ tương tự và đóng góp một số lời khuyên hữu ích.
Dù sao đi nữa, mặc dù LLM rất nhạy cảm với cách diễn đạt cụ thể của tín hiệu, nhưng cách thức chính xác điều này ảnh hưởng đến kết quả vẫn chưa rõ ràng.
Đây cũng là hướng cần được khai thác ở bước nghiên cứu tiếp theo.
Xét cho cùng, đối với LLM, các cụm từ lịch sự chỉ là một chuỗi từ ngữ, và không rõ liệu "gánh nặng cảm xúc" mà những cụm từ này mang lại có tác động đến họ hay không.
Một hướng nghiên cứu khả thi dựa trên khái niệm về sự bối rối do Gonen và cộng sự tại Đại học Washington đề xuất.
Địa chỉ bài báo: https://arxiv.org/pdf/2212.04037
Họ lưu ý rằng hiệu suất của LLM có thể phụ thuộc vào "ngôn ngữ" mà họ được đào tạo, trong đó các tín hiệu có độ bối rối thấp hơn có khả năng thực hiện nhiệm vụ tốt hơn.
Một yếu tố khác đáng cân nhắc là sự bối rối cũng liên quan đến độ dài của từ gợi ý.
Tóm lại, tốt nhất là đừng lịch sự khi nhờ AI giúp đỡ trong cuộc sống hàng ngày. Để đảm bảo tính chính xác, bạn cũng cần nói vài lời. Nếu không tin, bạn cứ thử xem?
Tham khảo:
https://x.com/dr_cintas/status/1977431327780610375
Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Xinzhiyuan, biên tập: Taozi và được 36Kr cấp phép xuất bản.