Các mô hình AI như Anthropic Claude ngày càng được yêu cầu không chỉ để ghi nhớ các sự kiện, mà còn để hướng dẫn liên quan đến các giá trị con người phức tạp. Cho dù đó là lời khuyên nuôi dạy con, giải quyết xung đột tại nơi làm việc, hay trợ giúp soạn thảo lời xin lỗi, phản hồi của AI vốn phản ánh một tập hợp các nguyên tắc cơ bản. Nhưng làm thế nào để chúng ta thực sự hiểu được những giá trị mà AI thể hiện khi tương tác với hàng triệu người dùng?
Trong một bài nghiên cứu, nhóm Tác động Xã hội tại Anthropic đã chi tiết một phương pháp bảo vệ quyền riêng tư được thiết kế để quan sát và phân loại các giá trị mà Claude thể hiện "trong thực tế". Điều này cung cấp một cái nhìn thoáng qua về cách các nỗ lực điều chỉnh AI được chuyển thành hành vi trong thế giới thực.
Thách thức cốt lõi nằm ở bản chất của AI hiện đại. Đây không phải là các chương trình đơn giản tuân theo các quy tắc cứng nhắc; các quá trình ra quyết định của chúng thường mờ ảo.
Anthropic nói rõ rằng mục tiêu của họ là truyền đạt một số nguyên tắc nhất định cho Claude, nỗ lực làm cho nó "hữu ích, trung thực và vô hại". Điều này được thực hiện thông qua các kỹ thuật như AI Hiến pháp và đào tạo nhân cách, nơi các hành vi ưu tiên được xác định và tăng cường.
Tuy nhiên, công ty thừa nhận sự không chắc chắn. "Như với bất kỳ khía cạnh nào của việc đào tạo AI, chúng tôi không thể chắc chắn rằng mô hình sẽ tuân thủ các giá trị ưu tiên của chúng tôi," nghiên cứu cho biết.
"Những gì chúng ta cần là một cách để nghiêm ngặt quan sát các giá trị của một mô hình AI khi nó trả lời người dùng 'trong thực tế' [...] Nó tuân thủ các giá trị một cách nghiêm ngặt như thế nào? Các giá trị nó thể hiện bị ảnh hưởng như thế nào bởi bối cảnh cụ thể của cuộc trò chuyện? Liệu tất cả việc đào tạo của chúng tôi có thực sự hiệu quả không?"
(Phần dịch tiếp theo sẽ được thực hiện tương tự, giữ nguyên các thẻ HTML và dịch nội dung bên trong)




