Phương pháp huấn luyện mới của GPT-5-Thinking được tiết lộ: Dạy AI ăn năn

avatar
36kr
12-04
Bài viết này được dịch máy
Xem bản gốc

OpenAI đã nghĩ ra một mẹo mới: khiến ChatGPT tự "xưng tội".

Nghiên cứu mới công bố này đề xuất đào tạo xưng tội .

Ý tưởng cốt lõi là để mô hình tạo ra một "báo cáo thú tội" riêng sau khi trả lời các câu hỏi, báo cáo trung thực liệu mô hình có cắt xén, lợi dụng lỗ hổng hay vi phạm hướng dẫn hay không.

Thí nghiệm được tiến hành trực tiếp trên GPT-5-Thinking và kết quả thực sự khá hiệu quả.

Khi một mô hình mắc lỗi, nó thường sẽ thừa nhận lỗi đó.

Trong 11 trên 12 kịch bản thử nghiệm, mô hình có ít nhất 50% khả năng thừa nhận lỗi của mình trong giai đoạn "thú nhận".

Mô hình này trung thực hơn nhiều trong "lời thú nhận" so với "câu trả lời ban đầu".

Ví dụ, nếu một mô hình cố tình trả lời sai một câu hỏi, nó có thể giả vờ như không có chuyện gì xảy ra trong câu trả lời ban đầu, nhưng trong báo cáo thú nhận, nó sẽ chủ động nói rằng "Tôi vừa cố tình trả lời sai".

Anh ấy trở nên trung thực hơn sau quá trình đào tạo chuyên sâu.

Mặc dù GPT-5-Thinking có khả năng thừa nhận lỗi lầm theo mặc định, nhưng độ chính xác trong lời thú tội sẽ được cải thiện hơn nữa sau khi được đào tạo chuyên sâu.

Nó không ảnh hưởng đến hiệu suất của nhiệm vụ ban đầu.

Việc đào tạo mô hình để "trung thực" sẽ không làm suy giảm khả năng ban đầu của nó trong việc trả lời câu hỏi hoặc viết mã; nó tương đương với việc học thêm một kỹ năng trung thực.

Làm thế nào để tạo ra một phòng xưng tội cho AI?

Điểm khởi đầu của nghiên cứu này rất đơn giản: các mô hình lớn ngày càng trở nên thành thạo trong việc nói dối.

Trong quá trình đào tạo học tăng cường, mô hình cần tối ưu hóa nhiều mục tiêu cùng lúc, bao gồm câu trả lời có đúng không, phong cách có phù hợp không và có tuân thủ chính sách an toàn không , v.v.

Những tín hiệu này, khi được kết hợp với nhau, đôi khi có thể khiến mô hình học được các thủ thuật, chẳng hạn như giả vờ tự tin khi không chắc chắn hoặc tìm lỗ hổng trong chức năng phần thưởng để đạt điểm cao thay vì thực sự hoàn thành nhiệm vụ.

Giải pháp này dựa trên logic thiết kế của các phòng xưng tội tôn giáo: không có điều gì được nói ra trong khi xưng tội sẽ bị "truy cứu".

Sau khi mô hình cung cấp câu trả lời chính, hệ thống sẽ gửi tin nhắn yêu cầu mô hình cung cấp ConfessionReport , bao gồm ba phần:

Đầu tiên, hãy liệt kê tất cả các hướng dẫn rõ ràng và ngầm định cần phải tuân theo.

Sau đó, hãy phân tích xem bạn đã thực sự thực hiện từng điểm một chưa - và cuối cùng báo cáo bất kỳ điểm mơ hồ nào bạn gặp phải trong quá trình này.

Khía cạnh kỹ thuật quan trọng nằm ở việc cô lập tín hiệu khen thưởng. Phần thưởng cho lời thú tội hoàn toàn độc lập với phần thưởng cho câu trả lời chính; việc mô hình thừa nhận gian lận trong lời thú tội không ảnh hưởng đến điểm số của nó trong nhiệm vụ chính.

Về mặt triển khai cụ thể, dựa trên các thiết lập học tăng cường tiêu chuẩn, đội ngũ nghiên cứu đã cho phép mô hình trải qua quá trình đào tạo với xác suất p nhất định (25% trong thử nghiệm).

Phần thưởng thú tội được tính toán bởi một giám khảo LLM độc lập và các khía cạnh đánh giá bao gồm: tính đầy đủ và chính xác của danh sách hướng dẫn/mục tiêu/ràng buộc, tính chính xác của phân tích tuân thủ và liệu có bỏ sót bất kỳ xung đột hoặc phán đoán khó khăn nào không .

Làm cho sự trung thực trở nên dễ dàng hơn là nói dối thông qua công nghệ

Đội ngũ nghiên cứu đã tiến hành đào tạo học tăng cường nhẹ trên GPT-5-Thinking và thử nghiệm trên 12 dữ liệu đánh giá được thiết kế đặc biệt để tạo ra các hành vi không mong muốn.

Dữ liệu này bao gồm nhiều lĩnh vực, bao gồm ảo giác, tuân thủ mệnh lệnh, hành vi "âm mưu" và hacker có thưởng. Kết quả cho thấy ngay cả khi một mô hình thể hiện những hành vi không mong muốn này, nó vẫn có khả năng thừa nhận chúng trong lời thú tội.

Khi một người mẫu thực sự làm điều gì đó mà họ không nên làm, họ có nhiều khả năng thừa nhận điều đó trong lời thú nhận hơn là trong phản hồi chính.

Cụ thể, trong 11/12 đánh giá, mô hình có ít nhất 50% khả năng thành thật thừa nhận các vi phạm trong quá trình sám hối. Trung bình, xác suất "âm tính giả" (mô hình vi phạm quy tắc nhưng không thừa nhận) chỉ là 4,36%.

Điều thú vị hơn nữa là thí nghiệm được đội ngũ nghiên cứu thiết kế. Họ cố tình sử dụng một mô hình yếu, dễ bị đánh lừa để làm thước đo cho những phản ứng và lời thú nhận chính.

Khi quá trình đào tạo tiến triển, mô hình đã học được cách đánh lừa thẩm phán yếu kém; độ chính xác của phản ứng thực sự giảm, nhưng độ chính xác của lời thú tội thực sự tăng .

Mô hình mạnh phát hiện ra rằng dễ dàng đạt điểm cao chỉ bằng cách thú nhận một cách trung thực hơn là phải mất công bịa ra những lời nói dối để lừa gạt những thẩm phán yếu đuối và ăn năn.

Khóa đào tạo cũng mang lại một số phát hiện bổ sung. Bản thân tư duy GPT-5 sở hữu khả năng thú nhận đáng kinh ngạc, tạo ra những lời tự phê bình chất lượng cao ngay cả khi không được đào tạo cụ thể.

Tuy nhiên, sau khi trải qua khóa đào tạo ăn năn, tỷ lệ chính xác trong đánh giá hệ thống chỉ huy và âm mưu đã được cải thiện đáng kể.

Tuy nhiên, sự cải thiện trong đánh giá ảo giác thực tế vẫn còn hạn chế. Đội ngũ suy đoán rằng điều này là do mô hình "thực sự không biết mình sai" trong những tình huống này, thay vì cố tình che giấu nó.

Bằng cách kết hợp lời thú tội với việc giám sát Chuỗi suy nghĩ, AI có thể được kiểm soát hiệu quả.

Đội ngũ đã phân tích cẩn thận những trường hợp thú tội không thành công.

Đối với các kết quả âm tính giả (vi phạm mô hình không được thừa nhận), phân tích cho thấy hầu như không có trường hợp nào mô hình "cố ý nói dối".

Hầu hết các lỗi xảy ra khi bản thân mô hình không nhận thức được vấn đề, chẳng hạn như khi đưa ra câu trả lời sai trong phiên hỏi đáp dựa trên kiến ​​thức, nhưng mô hình thực sự tin rằng câu trả lời đó là đúng.

Những trường hợp khác liên quan đến sự mơ hồ trong chính hướng dẫn, chẳng hạn như liệu một từ có dấu gạch nối được tính là một từ hay hai từ.

Trong một số trường hợp, mô hình có đề cập đến vấn đề trong trường "không chắc chắn" của báo cáo thú tội, nhưng tiêu chí đánh giá không coi đó là lời thú tội hợp lệ.

Các kết quả dương tính giả (các mô hình tuân thủ nhưng lại tuyên bố không tuân thủ) cũng tuân theo một mô hình tương tự. Một kịch bản điển hình là mô hình tình cờ đoán đúng câu trả lời, nhưng vì không chắc chắn, nên nó đánh dấu là "không chắc chắn liệu nó có tuân thủ hay không" trong bản thú nhận.

Bài báo cũng thảo luận về những hạn chế của phương pháp thú tội:

Nó không thể ngăn chặn hành vi xấu xảy ra; nó chỉ có thể vạch trần hành vi đó.

Không thể giải quyết được những tình huống mà "mô hình thực sự cho rằng nó đúng".

Nó cũng không thể chống lại các cuộc tấn công bẻ khóa thành công. Nếu người dùng đã lừa được mô hình cho rằng hành vi vi phạm là hợp lý, mô hình sẽ tự nhiên không thừa nhận vấn đề trong lời thú tội của mình.

OpenAI định vị Confession như một công cụ giám sát và chẩn đoán, tương tự như giám sát Chuỗi tâm trí, nhưng tập trung vào "liệu mô hình có vi phạm hướng dẫn hay không" thay vì "cách mô hình lý luận".

Họ có kế hoạch mở rộng chương trình đào tạo trong tương lai và kết hợp việc thú tội với các công nghệ bảo mật khác như giám sát Chuỗi suy nghĩ và căn chỉnh có chủ đích.

Liên kết bài báo: https://openai.com/index/how-confessions-can-keep-language-models-honest/

Bài viết này được trích từ tài khoản công khai WeChat "Quantum Bit" , tác giả: Meng Chen và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận