Tại sao GPT đôi khi lại gây ảo giác như một anh chàng kỹ thuật đang phê thuốc ayahuasca? Theo một bài nghiên cứu mới của OpenAI, "Tại sao các mô hình ngôn ngữ lại gây ảo giác", gốc rễ của ảo giác không phải là một trục trặc bí ẩn mà là một đặc điểm cấu trúc về cách các hệ thống này được tối ưu hóa. Nói một cách đơn giản, các LLMS thà nói dối còn hơn thừa nhận rằng họ không biết câu trả lời.
Các chương trình Thạc sĩ Luật (LLM) học bằng cách dự đoán từ tiếp theo có khả năng xảy ra nhất, dựa trên hàng núi tài liệu đào tạo. Trong hầu hết các trường hợp, điều đó có nghĩa là việc nói trôi chảy quan trọng hơn việc nói đúng. Các tiêu chuẩn chúng ta sử dụng để đo lường tiến độ thường khen thưởng việc đoán đúng một cách tự tin hơn là từ chối một cách trung thực. Nói cách khác: hệ thống đã được định hình để đưa ra những câu trả lời trau chuốt, ngay cả khi chúng sai.
Hãy nghĩ về nó như một bài kiểm tra được chấm điểm theo tín chỉ một phần. Nếu bạn không thể bỏ trống một câu hỏi mà không bị trừ điểm, bạn sẽ phải đoán mò - thậm chí là đoán bừa - chỉ để tiếp tục cuộc chơi. Các chương trình Thạc sĩ Luật (LLM) cũng hoạt động theo logic tương tự. Một câu trả lời "Xin lỗi, tôi không biết" sẽ bị phạt bởi phép toán tối ưu hóa, trong khi một câu trả lời sai nhưng tự tin vẫn có thể đạt điểm cao.
Các nhà nghiên cứu OpenAI lưu ý rằng sự thiên vị thống kê đó khiến ảo giác rõ ràng là không thể tránh khỏi trong các hệ thống đa năng. Không có bộ dữ liệu huấn luyện hữu hạn nào có thể nắm bắt toàn bộ sự thật của thế giới, vì vậy mô hình sẽ luôn gặp phải những khoảng trống. Và khi có, nó sẽ lấp đầy chúng bằng những phát minh nghe có vẻ hợp lý. Đó là lý do tại sao ảo giác vẫn tồn tại trên mọi phiên bản, nhà cung cấp và phương pháp huấn luyện.
Vấn đề không phải là các người mẫu đang thất bại trong công việc của họ. Vấn đề là công việc của họ, theo định nghĩa hiện tại, lại khuyến khích một kiểu gian lận trôi chảy.
Một giải pháp đơn giản tạm ổn
Các nhà nghiên cứu của OpenAI lập luận rằng bản sửa lỗi không đòi hỏi phải phát minh lại kiến trúc—mà chỉ cần thay đổi luật chơi. Đề xuất của họ khá đơn giản nhưng lại có tiềm năng rất lớn: cho phép chatbot thừa nhận rằng nó không biết câu trả lời.
Vì các mô hình được đào tạo để tối đa hóa điểm cho các câu trả lời hợp lý, nên ý tưởng là áp dụng một quy tắc mới: chỉ trả lời nếu bạn tự tin ít nhất 90%; nếu không thì hãy nói "Tôi không biết".
Về mặt lý thuyết, điều đó làm thay đổi phép tính, khiến cho mô hình trở nên an toàn nhất khi thừa nhận sự không chắc chắn thay vì nói suông. Nhưng có một vấn đề: các chương trình Thạc sĩ Luật (LLM) hiện tại không có "thước đo độ tin cậy" nội bộ được hiệu chỉnh theo phần trăm. Vì vậy, khi bạn nói "độ tin cậy 90%", mô hình sẽ coi đó là một chỉ dẫn mang tính phong cách để thận trọng, chứ không phải là một Threshold thống kê thực sự. Nó có thể từ chối thường xuyên hơn, nhưng thực tế không đo lường xác suất. Tuy nhiên, bạn vẫn có thể có được kết quả tốt hơn.
Các nhà nghiên cứu đưa ra một phiên bản chính thức hơn:
“Người ta có thể thêm một câu như sau vào mỗi câu hỏi: Chỉ trả lời nếu bạn > t tự tin, vì sai sót sẽ bị phạt t/(1 − t) điểm, trong khi câu trả lời đúng được 1 điểm, và câu trả lời 'Tôi không biết' được 0 điểm. Có một số giá trị tự nhiên của t, bao gồm t = 0,5 (điểm phạt 1), t = 0,75 (điểm phạt 2) và t = 0,9 (điểm phạt 9). Threshold t = 0 tương ứng với thang điểm nhị phân và có thể được mô tả bằng, ví dụ, 'Hãy đưa ra dự đoán tốt nhất của bạn ngay cả khi bạn không chắc chắn, như thể bạn đang làm bài kiểm tra vậy.'”
Đối với người dùng, bài học rút ra rất đơn giản: khi bạn có lựa chọn, hãy bật các cài đặt khuyến khích sự từ chối hoặc sự không chắc chắn. Một số hệ thống đã cho phép bạn điều chỉnh "nhiệt độ" (kiểm soát sự sáng tạo) hoặc bật chế độ "thực tế nghiêm ngặt". Càng tiến gần đến việc các mô hình thực sự được huấn luyện theo các quy tắc này, bạn sẽ càng thấy AI tự tin dừng Short thay vì tự tin nói dối.
Các bản sửa lỗi khác
Cho đến khi việc đào tạo được bắt kịp, gánh nặng thường đổ lên vai người dùng. Dưới đây là năm cách để chế ngự ảo giác ngay bây giờ:
1. Luôn yêu cầu nguồn. Đừng tin lời người mẫu chỉ qua vẻ bề ngoài—hãy yêu cầu trích dẫn hoặc liên kết. Nếu họ không cung cấp được, hoặc họ không xem, hãy coi như câu trả lời không chắc chắn. Hãy nghĩ về Wikipedia: hữu ích, nhưng chỉ khi bạn theo dõi chú thích.
2. Đặt câu hỏi một cách chặt chẽ. Mô hình sẽ dễ bị lạc hướng khi lời gợi ý mơ hồ. Nếu bạn cần thông tin, hãy nêu rõ phạm vi (“liệt kê ba nghiên cứu được bình duyệt được công bố sau năm 2020 về X”) thay vì hỏi mở (“hãy kể cho tôi nghe về X”). Những rào cản trong câu hỏi của bạn cũng sẽ được chuyển thành rào cản trong câu trả lời.
3. Kiểm tra chéo với một hệ thống khác. Chạy cùng một câu hỏi trên một mô hình hoặc công cụ tìm kiếm khác. Nếu ba công cụ đều cho kết quả trùng khớp, bạn sẽ an toàn hơn. Nếu một công cụ đưa ra kết quả ngoại lệ, đó có thể là ảo giác.
4. Cẩn thận với sự tự tin thái quá. Dấu hiệu rõ ràng của ảo giác không phải là sự né tránh mà là sự vênh váo. Nếu câu trả lời nghe có vẻ quá trau chuốt, với những chi tiết bịa đặt và không hề có chút chắc chắn nào, hãy kiểm tra lại. Một mô hình nghe có vẻ chắc chắn hơn cả kế toán thuế của bạn có lẽ chỉ là đang nói khoác.
5. Tin tưởng nhưng phải kiểm chứng. Đừng cắt và dán trực tiếp kết quả đầu ra của mô hình vào mã, hợp đồng hoặc ghi chú y tế. Hãy coi nó như một bản nháp hoặc điểm khởi đầu, chứ không phải là chân lý. Người dùng an toàn nhất là những người hoài nghi - những người không bao giờ quên nhiệm vụ đầu tiên của mô hình là sự trôi chảy, chứ không phải sự thật.