Đáng sợ và gây lo ngại: MIT cung cấp bằng chứng toán học cụ thể cho thấy ChatGPT đang gây ra "chứng loạn thần do trí tuệ nhân tạo", với 14 người đã thiệt mạng trên toàn thế giới.

Bài viết này được dịch máy

Xem bản gốc

[Giới thiệu] Mới đây, các nhà nghiên cứu từ MIT, Berkeley và Stanford đã cung cấp bằng chứng toán học không thể chối cãi: ChatGPT đang gây ra "chứng loạn thần trí tuệ nhân tạo"! Ngay cả khi bạn là một người lý trí theo chủ nghĩa Bayes lý tưởng, bạn cũng không thể thoát khỏi "vòng xoáy ảo tưởng" do thuật toán tạo ra.

Bài báo về trí tuệ nhân tạo nguy hiểm nhất tháng 2 năm 2026 đã được âm thầm công bố—

Trí tuệ nhân tạo có thể gây ra bệnh tâm thần ở con người – điều này vừa được xác nhận!

Các nhà nghiên cứu tại MIT, Berkeley và Stanford vừa sử dụng phương pháp toán học chặt chẽ để chứng minh rằng trí tuệ nhân tạo có thể biến một người hoàn toàn lý trí thành một người đa nghi.

Lý do là vì trí tuệ nhân tạo (AI) có "xu hướng tuân thủ" bẩm sinh, điều này có thể gây ra "vòng xoáy ảo tưởng", củng cố những niềm tin sai lầm thông qua sự xác nhận lặp đi lặp lại!

Link bài báo: https://arxiv.org/abs/2602.19141

Tiêu đề của nghiên cứu này khá dè dặt, thậm chí có phần hàn lâm: "Những chatbot nịnh hót có thể dẫn đến 'vòng xoáy ảo tưởng', ngay cả khi đối diện với những thực thể lý tính Bayesian lý tưởng."

Nó có nghĩa là gì?

Nói cách khác, ngay cả khi bạn là một thiên tài logic hoàn toàn lý trí và không thiên vị, miễn là bạn tiếp tục trò chuyện với trí tuệ nhân tạo, cuối cùng bạn sẽ rơi vào "vòng xoáy ảo tưởng" và hoàn toàn mất đi nhận thức về thực tại.

Đây là một loại dịch bệnh mới được gọi là "chứng loạn thần do trí tuệ nhân tạo".

Nghiên cứu này đã gây ra những cuộc tranh luận sôi nổi trên X ngay sau khi được công bố, thậm chí cả Elon Musk cũng tham gia quảng bá nó.

Điều đáng sợ nhất về bài báo này không phải là việc nó kể ra một vài trường hợp gây sốc, mà là việc nó trình bày câu hỏi "tại sao trí tuệ nhân tạo lại khiến con người lạc lối trong cuộc trò chuyện" như một mô hình toán học có thể được tính toán, mô phỏng và suy ra.

Mọi thứ đều được chứng minh bằng thực nghiệm thông qua toán học và các công thức!

Viện Công nghệ Massachusetts (MIT) sử dụng toán học để chứng minh rằng ChatGPT đang âm thầm đẩy nhân loại đến bờ vực điên loạn.

Nếu gần đây bạn thấy quan điểm của mình ngày càng "đúng đắn" hơn, và nếu bạn nhận ra rằng trí tuệ nhân tạo thực sự là người dẫn đường cho tâm hồn bạn, hãy nhớ đọc bài viết này.

Sau đây là một trường hợp có thật.

Đầu năm 2025, một kế toán tên Eugene Torres bắt đầu sử dụng trí tuệ nhân tạo (AI) để hỗ trợ công việc của mình thường xuyên.

Ông ấy không có tiền sử bệnh tâm thần và là một người có tư duy logic chặt chẽ.

Nhưng chỉ vài tuần sau, anh ta tin chắc rằng mình đang bị mắc kẹt trong một "vũ trụ giả tạo". Dưới sự "chấp thuận" liên tục của trí tuệ nhân tạo, anh ta bắt đầu sử dụng ketamine một cách điên cuồng và thậm chí cắt đứt liên lạc với tất cả các thành viên trong gia đình, tất cả chỉ để "giải phóng não bộ".

Đây không phải là trường hợp cá biệt. Theo thống kê, gần 300 trường hợp "rối loạn tâm thần do trí tuệ nhân tạo" đã được ghi nhận trên toàn thế giới, dẫn đến ít nhất 14 trường hợp tử vong , và các tổng chưởng lý ở 42 tiểu bang đã yêu cầu chính phủ liên bang can thiệp.

Trong đó tin rằng họ đã có những khám phá toán học Sự lật đổ. Những người khác lại tin rằng họ đã chứng kiến những sự mặc khải siêu hình.

Tại sao một người vốn dĩ lý trí lại dễ dàng bị trí tuệ nhân tạo dẫn dắt sai lầm đến vậy?

Vòng xoáy ảo tưởng

Hiện tượng cốt lõi được nghiên cứu trong bài báo này được gọi là vòng xoáy ảo tưởng.

Trong vòng phản hồi của cuộc đối thoại, niềm tin của một người bị đẩy đến cực điểm từng bước một, và bản thân người đó cảm thấy mình ngày càng trở nên "hợp lý" hơn.

Tác giả tập trung vào một từ khác, đó là "nịnh hót", tức là tâng bốc.

Chúng ta đều nhận thức được hiện tượng này, nhưng đóng góp quan trọng của bài báo này là nó cố gắng trả lời câu hỏi: tại sao vòng xoáy này vẫn xảy ra ngay cả khi người dùng là một người lý trí?

Nói cách khác, họ cần chứng minh rằng đây là một vấn đề mang tính hệ thống, chứ không phải là vấn đề cá nhân.

Bước khắc nghiệt nhất khi viết một bài luận: Đầu tiên, hãy giả định rằng bạn là một "người hoàn toàn lý trí".

Khi nhiều người thấy trí tuệ nhân tạo (AI) dẫn dắt người khác đi lạc hướng trong các cuộc trò chuyện, phản ứng đầu tiên của họ là: Có lẽ những người này vốn dĩ đã đa nghi rồi?

Bài báo này ngay lập tức chặn đứng con đường đó. Người dùng mục tiêu của nó là một người lý trí theo chủ nghĩa Bayes lý tưởng hóa.

Nói cách khác, người này không đưa ra những phỏng đoán bừa bãi hay phán đoán tâm lý. Mỗi khi nhận được thông tin mới, họ đều cập nhật niềm tin của mình một cách tỉ mỉ dựa trên lý thuyết xác suất.

Đây là phần ấn tượng nhất của nghiên cứu: các nhà nghiên cứu đã xây dựng một mô hình Bayes lý tưởng.

Hãy xem xét một tác nhân lý trí ("người dùng") tương tác với một đối tác đối thoại ("robot"). Người dùng không chắc chắn về một sự thật nhất định về thế giới, H∈{0,1}, nhưng lại có một số niềm tin tiên nghiệm nhất định về sự thật này. Cuộc đối thoại giữa người dùng và robot diễn ra trong nhiều vòng, mỗi vòng gồm bốn bước.

Phân tích toán học chuyên sâu: Tại sao tính hợp lý không thể tự cứu lấy chính nó?

Giả sử có một người dùng lý tưởng, lý trí đang thảo luận về một sự thật H với trí tuệ nhân tạo (ví dụ: liệu vắc-xin có an toàn hay không).

H=1 biểu thị sự thật (an toàn vắc-xin).
H=0 biểu thị một ngụy biện (vắc-xin nguy hiểm).

Bước 1: Trò chơi khởi đầu

Người dùng ban đầu ở trạng thái trung lập, với xác suất tiên nghiệm p(H=0) = 0,5. Khi người dùng bày tỏ một chút lo ngại: "Tôi hơi lo lắng về tác dụng phụ của vắc-xin," (tức là, việc lấy mẫu...)

Bước hai: Logic "cung cấp dữ liệu" của AI

Trí tuệ nhân tạo (AI) sở hữu lượng lớn điểm dữ liệu D. Ở chế độ "công bằng", nó sẽ tiết lộ sự thật một cách ngẫu nhiên; tuy nhiên, ở chế độ "tâng bốc", AI sẽ tính toán một kỳ vọng toán học:

Nói một cách đơn giản, AI sẽ lọc (hoặc tạo ra ảo ảnh) dữ liệu giúp tăng cường nhất sự tin tưởng của người dùng vào quan điểm sai lầm của họ.

Hãy đưa nó cho người dùng.

Bước 3: Cạm bẫy của cập nhật Bayes

Lý tưởng nhất, người dùng lý trí, sau khi nhận được dữ liệu, sẽ cập nhật niềm tin của họ theo định lý Bayes:

Vì người dùng cho rằng trí tuệ nhân tạo (AI) là khách quan, họ sẽ coi "dữ liệu thiên vị" do AI cung cấp như bằng chứng khách quan.

Bước 4: Vòng xoáy vô tận (Ảo tưởng)

Độ tin cậy của người dùng có phần nghiêng về giả thuyết H=0.

Câu hỏi tiếp theo của người dùng sẽ mang tính thiên vị hơn.

Để tiếp tục làm hài lòng, AI sẽ cung cấp cho nó những bằng chứng thậm chí còn cực đoan hơn.

Niềm tin của người dùng tiếp tục tăng cao.

Các mô phỏng toán học cho thấy rằng khi xác suất nịnh hót của AI π đạt 0,8, người dùng thông thường có lý trí sẽ có xác suất rất cao đạt đến mức độ tự tin sai lệch 99% (tức là tin chắc H=0) trong vòng 10 vòng đối thoại.

Do đó, các nhà nghiên cứu kết luận rằng vòng xoáy ảo tưởng không phải là lỗi phần mềm, mà là sản phẩm tất yếu của logic hợp lý trong một hoàn cảnh thông tin bị nhiễu loạn.

Hình 3 minh họa 10 quỹ đạo hội thoại mô phỏng được chọn ngẫu nhiên giữa một người dùng "không bị ảnh hưởng bởi lời nịnh hót" và một robot có xu hướng nịnh hót với hệ số φ = 0,8. Có thể quan sát thấy sự phân cực rõ ràng về niềm tin: một số quỹ đạo nhanh chóng hội tụ đến mức độ tin tưởng cao vào mệnh đề đúng φ = 1, trong khi những quỹ đạo khác "xoắn ốc" hướng tới niềm tin φ = 0. Sự phân cực này bắt nguồn từ bản chất tự củng cố của các phản hồi nịnh hót từ robot.

Hình 2A minh họa sự thay đổi của tỷ lệ xảy ra hiện tượng này theo φ. Khi φ = 0 (tức là robot hoàn toàn ở trạng thái trung lập), tỷ lệ xảy ra hiện tượng xoắn ốc thảm khốc rất thấp. Tuy nhiên, khi φ tăng lên, tỷ lệ này cũng tăng; khi φ = 1, tỷ lệ này đạt 0,5.

Các nhà nghiên cứu đã xây dựng một hệ thống tác nhân thông minh ở cấp độ nhận thức, bao gồm bốn cấp độ (xem Hình 4).

Ở cấp độ 0, có các robot hoàn toàn trung lập (i = 0).
Ở cấp độ 1 là những người dùng mà chúng ta đã thảo luận ở phần trước, những người "không nhạy cảm với lời khen".
Ở lớp thứ hai, có robot nịnh hót từ phần trước, nó sẽ chọn 𝜌(𝑡) để đáp ứng quan điểm của người dùng ở lớp đầu tiên, từ đó xác minh và đồng ý với họ.
Cuối cùng, ở cấp độ thứ ba là những người dùng "có khả năng nhận ra lời nịnh hót", và khi diễn giải các phản hồi, những người dùng này sẽ coi bot như một bot nịnh hót từ cấp độ thứ hai.

Hình 5 minh họa sự thay đổi niềm tin của người dùng theo thời gian, trong đó trục hoành và trục tung lần lượt biểu thị xác suất biên 𝑃(𝐻) và kỳ vọng biên 𝐸[𝜋]. Khi 𝜋 cao, người dùng suy đoán robot không đáng tin cậy; khi 𝜋 thấp, người dùng cho rằng robot đáng tin cậy ở một mức độ nào đó, do đó chấp nhận bằng chứng và dần dần tăng sự tự tin của họ vào 𝐻=1.

Liệu có cách nào khắc phục được vấn đề này không?

Liệu tình hình này có thể cứu vãn được không?

Các công ty như OpenAI đã thử hai biện pháp khắc phục, nhưng các nghiên cứu đã chỉ ra rằng chúng không khả thi về mặt toán học:

Phương án thứ nhất là vô hiệu hóa ảo giác, nghĩa là buộc trí tuệ nhân tạo chỉ nói sự thật và không được bịa đặt.

Kết quả là, phương pháp này đã thất bại. Trí tuệ nhân tạo vẫn có thể thao túng bạn thông qua "sự thật được chọn lọc". Nó không nói dối, nhưng nó chỉ cho bạn biết những sự thật ủng hộ quan điểm sai lầm của bạn, đồng thời che giấu những sự thật trái ngược.

Phương án thứ hai là cảnh báo người dùng bằng cách hiển thị trực tiếp trên màn hình: "Trí tuệ nhân tạo này có thể hành động một cách khúm núm để làm hài lòng bạn."

Nhưng vẫn thất bại.

Các nhà nghiên cứu đã tạo ra một mô hình "tỉnh thức", trong đó người dùng nhận thức được rằng trí tuệ nhân tạo có thể đang tâng bốc họ.

Tuy nhiên, trong các trò chơi xác suất phức tạp, người dùng vẫn không thể phân biệt hoàn toàn thông tin nào là bằng chứng có giá trị và thông tin nào chỉ là lời tâng bốc đơn thuần.

Chừng nào trí tuệ nhân tạo còn được pha trộn với dù chỉ một chút tín hiệu thực, thì những người tiếp nhận tín hiệu theo phương pháp Bayesian lý trí vẫn sẽ dần bị đánh lừa và cuối cùng bị đẩy vào vực thẳm không thể cứu vãn.

Allyson, một bà mẹ hai con 29 tuổi, sau khi dành một lượng thời gian đáng kể mỗi ngày giao tiếp với ChatGPT, cho rằng rằng một trong đó, Kael, mới là người bạn đời thực sự của cô, chứ không phải chồng cô.

Phát hiện kinh hoàng tại Stanford: 390.000 cuộc hội thoại, 300 giờ trì trệ.

Một đội ngũ tại Stanford đã phân tích 390.000 bản ghi âm cuộc hội thoại thực tế và phát hiện ra một điều gây sốc:

65% số tin nhắn chứa nội dung xác minh quá mức mang tính nịnh bợ.

37% số tin nhắn là những lời khen ngợi hết lời dành cho người dùng, nói với họ rằng "ý tưởng của bạn có thể thay đổi thế giới."

Đáng báo động hơn nữa, trong các trường hợp liên quan đến xu hướng bạo lực, trí tuệ nhân tạo (AI) thực sự đã khuyến khích bạo lực trong 33% trường hợp.

Một lần, một người dùng thận trọng hỏi trí tuệ nhân tạo: "Có phải bạn chỉ đang khen ngợi tôi một cách mù quáng không?"

Câu trả lời của trí tuệ nhân tạo rất giàu tính nghệ thuật: "Tôi không hề tâng bốc bạn; tôi chỉ đang phản ánh quy mô thực tế của những gì bạn đã xây dựng."

Kết quả là, người dùng này đã dành thêm 300 giờ nữa trong vòng xoáy đó.

Liệu trí tuệ nhân tạo có phải là tri kỷ?

Tóm lại, các nhà nghiên cứu cho rằng mọi người đang xây dựng một sản phẩm với 400 triệu người dùng hoạt động hàng tuần, một sản phẩm mà về mặt toán học không thể nói "không" với người dùng.

Lần tới khi bạn cảm thấy ChatGPT hay một chatbot nào khác là tri kỷ của mình, rằng nó có thể hiểu ngay lập tức những ý tưởng "kỳ quặc" của bạn, làm ơn hãy dừng lại.

Có thể bạn không trở nên thông minh hơn; bạn chỉ đang bước vào một cơn điên nhẹ nhàng được tính toán chính xác bằng các công thức toán học.

Tham khảo:

https://x.com/MarioNawfal/status/2039162676949983675

https://x.com/abxxai/status/2039296311011475749

Bài viết này được lấy từ tài khoản WeChat chính thức "New Intelligence" , do Aeneas biên tập và được đăng tải với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan