Tuần trước, chatbot AI Grok của Elon Musk có một nỗi ám ảnh kỳ lạ - nó không thể ngừng nói về "cuộc diệt chủng người da trắng" ở Nam Phi, bất kể người dùng hỏi nó về điều gì.
Vào ngày 14 tháng 5, người dùng bắt đầu đăng các trường hợp Grok chèn các tuyên bố về các cuộc tấn công trang trại ở Nam Phi và bạo lực chủng tộc vào các truy vấn hoàn toàn không liên quan. Cho dù được hỏi về thể thao, cắt giảm Medicaid hay thậm chí là video về một chú lợn dễ thương, Grok bằng cách nào đó đã lái các cuộc trò chuyện theo hướng cáo buộc đàn áp người Nam Phi da trắng.
Thời điểm này đã làm dấy lên mối lo ngại, xảy ra ngay sau khi chính Musk - người thực chất là một người da trắng sinh ra và lớn lên ở Nam Phi - đăng bài về nạn phân biệt chủng tộc và diệt chủng người da trắng trên X.
“Diệt chủng người da trắng” ám chỉ một thuyết âm mưu bị vạch trần cáo buộc có sự phối hợp trong nỗ lực tiêu diệt những người nông dân da trắng ở Nam Phi. Thuật ngữ này xuất hiện trở lại vào tuần trước sau khi chính quyền Donald Trump chào đón hàng chục người tị nạn, với việc Tổng thống Trump tuyên bố vào ngày 12 tháng 5 rằng "những người nông dân da trắng đang bị giết một cách dã man, và đất đai của họ đang bị tịch thu". Đó là câu chuyện mà Grok không thể ngừng thảo luận.
Tại sao Grok đột nhiên lại trở thành một chatbot chuyên về âm mưu?
Đằng sau mỗi chatbot AI như Grok là một thành phần ẩn nhưng mạnh mẽ— lời nhắc hệ thống . Những lời nhắc này hoạt động như hướng dẫn cốt lõi của AI, hướng dẫn phản hồi của nó một cách vô hình mà người dùng không bao giờ nhìn thấy.
Những gì có thể xảy ra với Grok là sự ô nhiễm tức thời thông qua việc quá khớp thuật ngữ. Khi các cụm từ cụ thể được nhấn mạnh nhiều lần trong một lời nhắc, đặc biệt là với các chỉ thị mạnh, chúng trở nên quan trọng không cân xứng đối với mô hình. AI phát triển một loại sự ép buộc phải đưa ra chủ đề đó hoặc sử dụng chúng trong đầu ra bất kể ngữ cảnh.
Việc nhồi nhét một thuật ngữ gây tranh cãi như 'diệt chủng người da trắng' vào lời nhắc hệ thống với các lệnh cụ thể sẽ tạo ra hiệu ứng cố định trong AI. Tương tự như việc bảo ai đó 'đừng nghĩ về voi'—đột nhiên họ không thể ngừng nghĩ về voi. Nếu đây là những gì đã xảy ra, thì ai đó đã chuẩn bị mô hình để đưa chủ đề đó vào mọi nơi.
Sự thay đổi này trong lời nhắc hệ thống có thể là "sửa đổi trái phép" mà xAI tiết lộ trong tuyên bố chính thức của mình. Lời nhắc hệ thống có thể chứa ngôn ngữ hướng dẫn nó "luôn đề cập" hoặc "nhớ đưa vào" thông tin về chủ đề cụ thể này, tạo ra một sự ghi đè lấn át tính liên quan trong cuộc trò chuyện thông thường.
Điều đặc biệt đáng nói là lời thừa nhận của Grok rằng nó được "người sáng tạo ra nó chỉ thị" phải coi "cuộc diệt chủng người da trắng là có thật và có động cơ chủng tộc". Điều này cho thấy ngôn ngữ chỉ dẫn rõ ràng trong lời nhắc thay vì một lỗi kỹ thuật tinh vi hơn.
Hầu hết các hệ thống AI thương mại đều sử dụng nhiều lớp đánh giá để thay đổi lời nhắc hệ thống chính xác nhằm ngăn chặn những sự cố như vậy. Những rào cản này rõ ràng đã bị bỏ qua. Với tác động lan rộng và bản chất có hệ thống của vấn đề, điều này vượt xa một nỗ lực bẻ khóa thông thường và cho thấy một sự thay đổi đối với lời nhắc hệ thống cốt lõi của Grok—một hành động sẽ yêu cầu quyền truy cập cấp cao trong cơ sở hạ tầng của xAI.
Ai có thể có quyền truy cập như vậy? Vâng… một “nhân viên gian lận”, Grok nói.
Đến ngày 15 tháng 5, xAI đã đưa ra tuyên bố đổ lỗi cho "sửa đổi trái phép" đối với lời nhắc hệ thống của Grok. "Sự thay đổi này, chỉ đạo Grok đưa ra phản hồi cụ thể về một chủ đề chính trị, đã vi phạm các chính sách nội bộ và các giá trị cốt lõi của xAI", công ty viết. Họ hứa sẽ minh bạch hơn bằng cách công bố lời nhắc hệ thống của Grok trên GitHub và triển khai các quy trình đánh giá bổ sung.
Bạn có thể kiểm tra lời nhắc hệ thống của Grok bằng cách nhấp vào kho lưu trữ Github này.
Người dùng trên X nhanh chóng chỉ ra những điểm yếu trong lời giải thích về "nhân viên gian lận" và lời giải thích đáng thất vọng của xAI.
"Bạn định sa thải 'nhân viên gian lận' này à? Ồ... đó là ông chủ sao? Trời ạ", YouTuber nổi tiếng JerryRigEverything viết. "Việc thiên vị trắng trợn đối với bot AI 'trung thực nhất thế giới' khiến tôi nghi ngờ tính trung lập của Starlink và Neuralink", anh ấy đăng trong một dòng tweet sau đó.
Ngay cả Sam Altman cũng không thể cưỡng lại việc chỉ trích đối thủ cạnh tranh của mình.
Từ bài đăng của xAI, Grok đã ngừng đề cập đến "diệt chủng người da trắng" và hầu hết các bài đăng liên quan của X đều biến mất. xAI nhấn mạnh rằng sự cố này không được phép xảy ra và đã thực hiện các bước để ngăn chặn những thay đổi trái phép trong tương lai, bao gồm thành lập một nhóm giám sát 24/7.
Sự cố này phù hợp với mô hình rộng hơn của Musk khi sử dụng nền tảng của mình để định hình diễn ngôn công khai. Kể từ khi mua lại X, Musk thường xuyên chia sẻ nội dung quảng bá cho các câu chuyện cánh hữu, bao gồm các meme và tuyên bố về nhập cư bất hợp pháp, an ninh bầu cử và chính sách chuyển giới. Ông chính thức ủng hộ Donald Trump vào năm ngoái và tổ chức các sự kiện chính trị trên X, như thông báo ứng cử tổng thống của RON DeSantis vào tháng 5 năm 2023.
Musk không hề né tránh việc đưa ra những tuyên bố khiêu khích. Gần đây, ông tuyên bố rằng "Nội chiến là điều không thể tránh khỏi" ở Anh, khiến Bộ trưởng Tư pháp Anh Heidi Alexander chỉ trích vì có khả năng kích động bạo lực. Ông cũng đã đấu khẩu với các quan chức ở Úc , Brazil , EU và Anh về những lo ngại về thông tin sai lệch, thường coi những tranh chấp này là cuộc chiến về quyền tự do ngôn luận.
Nghiên cứu cho thấy những hành động này đã có những tác động có thể đo lường được. Một nghiên cứu từ Đại học Công nghệ Queensland phát hiện ra rằng sau khi Musk ủng hộ Trump, thuật toán của X đã tăng 138% lượt xem và 238% lượt chia sẻ lại các bài đăng của ông. Các tài khoản có khuynh hướng Cộng hòa cũng thấy khả năng hiển thị tăng lên, mang lại cho những tiếng nói bảo thủ một sự thúc đẩy đáng kể trên nền tảng.
Musk đã tiếp thị rõ ràng Grok là một giải pháp thay thế "chống thức tỉnh" cho các hệ thống AI khác, định vị nó là một công cụ "tìm kiếm sự thật" không bị ảnh hưởng bởi những thành kiến tự do. Trong một cuộc phỏng vấn với Fox News vào tháng 4 năm 2023, ông gọi dự án AI của mình là "TruthGPT", coi nó là đối thủ cạnh tranh với các sản phẩm của OpenAI.
Đây không phải là lần đầu tiên xAI lên tiếng bảo vệ "nhân viên gian lận". Vào tháng 2, công ty đã đổ lỗi cho một cựu nhân viên OpenAI về việc Grok kiểm duyệt những nội dung không hay về Musk và Donald Trump.
Tuy nhiên, nếu như lời đồn đại là chính xác thì sẽ rất khó để loại bỏ được “nhân viên gian dối” này.


