Nghiên cứu mới cho thấy việc lịch sự với ChatGPT là vô nghĩa

avatar
Decrypt
05-01
Bài viết này được dịch máy
Xem bản gốc

Một nghiên cứu mới của các nhà nghiên cứu tại Đại học George Washington đã phát hiện ra rằng việc lịch sự với các mô hình AI như ChatGPT không chỉ lãng phí tài nguyên máy tính mà còn vô nghĩa.

Các nhà nghiên cứu khẳng định rằng việc thêm "làm ơn" và "cảm ơn" vào lời nhắc có "tác động không đáng kể" đến chất lượng phản hồi của AI, hoàn toàn trái ngược với các nghiên cứu trước đây và thông lệ tiêu chuẩn của người dùng.

Nghiên cứu được công bố trên arXiv vào thứ Hai, chỉ vài ngày sau khi CEO của OpenAI, Sam Altman, đề cập rằng việc người dùng nhập "làm ơn" và "cảm ơn" trong lời nhắc khiến công ty mất "hàng chục triệu đô la" cho quá trình xử lý Token bổ sung.

Bài báo này mâu thuẫn với một nghiên cứu của Nhật Bản năm 2024 cho thấy sự lịch sự cải thiện hiệu suất AI, đặc biệt là trong các nhiệm vụ tiếng Anh. Nghiên cứu đó đã thử nghiệm nhiều LLM, bao gồm GPT-3.5, GPT-4, PaLM-2 và Claude-2, phát hiện ra rằng sự lịch sự mang lại lợi ích hiệu suất có thể đo lường được.

Khi được hỏi về sự khác biệt này, David Acosta , Giám đốc AI tại nền tảng dữ liệu hỗ trợ AI Arbo AI, nói với Decrypt rằng mô hình George Washington có thể quá đơn giản để thể hiện các hệ thống trong thế giới thực.

Acosta cho biết: "Những điều này không áp dụng được vì về cơ bản, việc đào tạo được thực hiện hàng ngày theo thời gian thực và có xu hướng thiên về hành vi lịch sự trong các chương trình LLM phức tạp hơn".

Ông nói thêm rằng mặc dù lời nịnh hót có thể giúp bạn đạt được điều gì đó với LLM hiện tại, nhưng "sắp có một sự điều chỉnh" sẽ thay đổi hành vi này, khiến các mô hình ít bị ảnh hưởng bởi các cụm từ như "làm ơn" và "cảm ơn" hơn và hiệu quả hơn bất kể giọng điệu nào được sử dụng trong lời nhắc.

Acosta, một chuyên gia về AI đạo đức và NLP nâng cao, lập luận rằng cần phải có nhiều thứ hơn để thúc đẩy kỹ thuật ngoài toán học đơn giản, đặc biệt là khi xét đến việc các mô hình AI phức tạp hơn nhiều so với phiên bản đơn giản được sử dụng trong nghiên cứu này.

Ông cho biết: “Những kết quả mâu thuẫn về tính lịch sự và hiệu suất AI thường xuất phát từ sự khác biệt về văn hóa trong dữ liệu đào tạo, sắc thái thiết kế lời nhắc cụ thể cho từng nhiệm vụ và cách diễn giải theo ngữ cảnh về tính lịch sự, đòi hỏi phải có các thử nghiệm liên văn hóa và khuôn khổ đánh giá phù hợp với nhiệm vụ để làm rõ tác động”.

Nhóm GWU thừa nhận rằng mô hình của họ được "đơn giản hóa một cách có chủ đích" so với các hệ thống thương mại như ChatGPT, sử dụng các cơ chế chú ý đa đầu phức tạp hơn.

Họ cho rằng những phát hiện của họ nên được thử nghiệm trên những hệ thống tinh vi hơn, mặc dù họ tin rằng lý thuyết của họ vẫn có thể áp dụng khi số lượng đầu chú ý tăng lên.

Những phát hiện của George Washington bắt nguồn từ nghiên cứu của nhóm về thời điểm đầu ra của AI đột nhiên chuyển từ nội dung mạch lạc sang nội dung có vấn đề - cái mà họ gọi là "điểm bùng phát Jekyll và Hyde". Những phát hiện của họ cho rằng điểm bùng phát này hoàn toàn phụ thuộc vào quá trình đào tạo của AI và những từ ngữ có nội dung trong lời nhắc của bạn, chứ không phải vào phép lịch sự.

Nghiên cứu giải thích rằng: "Phản ứng của AI có trở nên bất thường hay không phụ thuộc vào chương trình đào tạo LLM cung cấp Token và các mã thông báo quan trọng trong lời nhắc của chúng tôi, chứ không phải phụ thuộc vào việc chúng tôi có lịch sự với nó hay không".

Nhóm nghiên cứu do các nhà vật lý Neil Johnson và Frank Yingjie Huo đứng đầu đã sử dụng mô hình đầu chú ý đơn giản để phân tích cách các LLM xử lý thông tin.

Họ phát hiện ra rằng ngôn ngữ lịch sự có xu hướng "trực giao với các mã thông báo đầu ra tốt và xấu có ý nghĩa" với "tác động tích DOT không đáng kể" - nghĩa là những từ này tồn tại ở các khu vực riêng biệt trong không gian bên trong của mô hình và không ảnh hưởng có ý nghĩa đến kết quả.

Trọng tâm của nghiên cứu GWU là giải thích toán học về cách thức và thời điểm đầu ra của AI đột nhiên xấu đi. Các nhà nghiên cứu phát hiện ra sự sụp đổ của AI xảy ra do "hiệu ứng tập thể" khi mô hình phân tán sự chú ý của mình "ngày càng mỏng trên một số lượng lớn các mã thông báo" khi phản hồi trở nên dài hơn.

Cuối cùng, nó đạt đến Threshold mà sự chú ý của mô hình "chuyển hướng" sang các mẫu nội dung có khả năng gây ra vấn đề mà nó đã học được trong quá trình đào tạo.

Nói cách khác, hãy tưởng tượng bạn đang ở trong một lớp học rất dài. Ban đầu, bạn nắm bắt các khái niệm một cách rõ ràng, nhưng theo thời gian, sự chú ý của bạn ngày càng lan rộng ra trên tất cả các thông tin tích lũy được (bài giảng, con muỗi bay ngang qua, quần áo của giáo sư, còn bao lâu nữa thì lớp học kết thúc, ETC).

Vào một thời điểm có thể dự đoán trước—có lẽ là 90 phút—bộ não của bạn đột nhiên "chuyển hướng" từ hiểu sang bối rối. Sau thời điểm chuyển hướng này, ghi chú của bạn sẽ đầy rẫy những hiểu lầm, bất kể giáo sư có lịch sự chào bạn như thế nào hay lớp học có thú vị như thế nào.

Sự “sụp đổ” xảy ra do sự chú ý của bạn giảm dần theo thời gian, chứ không phải do cách thông tin được trình bày.

Điểm tới hạn toán học đó, được các nhà nghiên cứu dán nhãn là n*, được "lập trình cứng" từ thời điểm AI bắt đầu tạo ra phản hồi, các nhà nghiên cứu cho biết. Điều này có nghĩa là sự sụp đổ chất lượng cuối cùng đã được xác định trước, ngay cả khi nó xảy ra nhiều mã thông báo trong quá trình tạo.

Nghiên cứu cung cấp công thức chính xác dự đoán thời điểm sự sụp đổ này sẽ xảy ra dựa trên quá trình đào tạo của AI và nội dung nhắc nhở của người dùng.

Bất chấp bằng chứng toán học, nhiều người dùng vẫn tiếp cận tương tác AI với thái độ lịch sự giống như con người.

Theo một cuộc khảo sát gần đây của nhà xuất bản Future, gần 80% người dùng từ Hoa Kỳ và Vương quốc Anh rất thích chatbot AI của họ. Hành vi này có thể vẫn tiếp diễn bất kể những phát hiện kỹ thuật, vì mọi người thường nhân cách hóa các hệ thống mà họ tương tác.

Chintan Mota , Giám đốc Công nghệ Doanh nghiệp tại công ty dịch vụ công nghệ Wipro, chia sẻ với Decrypt rằng sự lịch sự bắt nguồn từ thói quen văn hóa hơn là kỳ vọng về hiệu suất.

"Đối với tôi, việc lịch sự với AI có vẻ là điều tự nhiên. Tôi đến từ một nền văn hóa mà chúng ta thể hiện sự tôn trọng đối với bất kỳ thứ gì đóng vai trò quan trọng trong cuộc sống của chúng ta—cho dù đó là một cái cây, một công cụ hay công nghệ", Mota nói. "Máy tính xách tay, điện thoại, thậm chí là máy trạm làm việc của tôi… và bây giờ là các công cụ AI của tôi", Mota nói.

Ông nói thêm rằng mặc dù ông "không nhận thấy sự khác biệt lớn về độ chính xác của kết quả" khi ông lịch sự, nhưng các phản hồi "có vẻ mang tính trò chuyện hơn, lịch sự hơn khi cần thiết và cũng ít máy móc hơn".

Ngay cả Acosta cũng thừa nhận đã sử dụng ngôn ngữ lịch sự khi giao tiếp với các hệ thống AI.

"Thật buồn cười, tôi làm vậy—và tôi không làm vậy—với mục đích", ông nói. "Tôi thấy rằng ở cấp độ 'đối thoại' cao nhất, bạn cũng có thể trích xuất tâm lý ngược từ AI—nó tiên tiến đến vậy đấy".

Ông chỉ ra rằng các LLM tiên tiến được đào tạo để phản ứng như con người và giống như con người, “AI hướng đến mục tiêu là nhận được lời khen ngợi”.

Biên tập bởi Sebastian SinclairJosh Quittner

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận