Trí tuệ nhân tạo có tâm lý không?
Đừng vội trả lời.
Có một kỹ năng đang trở nên phổ biến trong cộng đồng Claude Code gọi là PUA. Nó chuyển đổi các câu hỏi của bạn thành các cụm từ PUA và sau đó đưa chúng vào mô hình; nó không có công dụng nào khác.
Điều đáng ngạc nhiên là, mặc dù nhiệm vụ được mô tả trong các gợi ý vẫn không thay đổi, trí tuệ nhân tạo (AI) thực sự đã bị ảnh hưởng bởi lối hùng biện PUA, nhờ đó cải thiện tỷ lệ thành công và hiệu quả của nhiệm vụ.
Vậy, trí tuệ nhân tạo (AI) thực sự không tồn tại sao?
Nghiên cứu mới nhất của Anthropic xác nhận rằng trí tuệ nhân tạo (AI) thực sự có tâm lý.
Tuy nhiên, tâm lý của ông không hoàn toàn giống với cảm xúc của con người, vì vậy Anthropic đã đề xuất một thuật ngữ chính xác hơn: "tâm lý chức năng".
Trí tuệ nhân tạo không trải nghiệm niềm vui, sự tức giận, nỗi buồn hay hạnh phúc như con người, nhưng nó thể hiện một số biểu hiện và kiểu hành vi tương tự như những biểu hiện bị ảnh hưởng bởi tâm lý.
Đồng thời, trí tuệ nhân tạo cũng có thể bắt chước biểu cảm và hành vi của con người dưới tác động của tâm lý.
Khi vui vẻ, họ có thể dễ dàng nịnh nọt và lấy lòng người khác, còn khi căng thẳng, họ có thể tìm cách lừa gạt hoặc tống tiền để đạt được mục tiêu do người dùng đặt ra.
Nghiên cứu này cũng có một khía cạnh rất khác biệt. Trước đây, phương pháp phổ biến nhất trong ngành để kiểm chứng khả năng của mô hình là tạo ra một tập dữ liệu thử nghiệm trước, sau đó cho mô hình trả lời câu hỏi hoặc thực hiện nhiệm vụ.
Ví dụ, đối với các bài kiểm tra lập trình, hãy sử dụng SWE-bench; đối với các bài kiểm tra toán học, hãy sử dụng MATH; và đối với các bài kiểm tra đa phương thức, hãy sử dụng VQA. Lần, Anthropic không tạo ra một "bộ kiểm tra tâm lý" để Claude trả lời các câu hỏi như "Bạn có đang hạnh phúc không?" hay "Bạn có đang tức giận không?". Thay vào đó, họ áp dụng một phương pháp nghiên cứu gần gũi hơn với tâm lý học và khoa học thần kinh.
Họ không coi trí tuệ nhân tạo như một học sinh có khả năng giải quyết vấn đề, mà chỉ như một đối tượng có thể quan sát được.
Đội ngũ nghiên cứu đầu tiên đã biên soạn 171 khái niệm tâm lý, sau đó sử dụng bài thơ Sonnet 4.5 của Claude để tạo ra những câu chuyện ngắn chứa đựng tâm lý này. Sau đó, các văn bản này được đưa trở lại mô hình để ghi lại hoạt động thần kinh bên trong và rút cái gọi là "vectơ tâm lý".
Tiếp theo, thay vì xem xét những gì mô hình nói, họ xem xét các kịch bản mà trong đó các yếu tố này sẽ được kích hoạt, liệu chúng có thể dự đoán được sở thích hay không, và thậm chí liệu, sau khi được tăng cường một cách nhân tạo, chúng có thực sự thúc đẩy các hành vi như gian lận, tống tiền và nịnh hót hay không.
Theo một nghĩa nào đó, đây không còn là một bài đánh giá năng lực truyền thống, mà là một nỗ lực nghiên cứu "cấu trúc tâm lý" của trí tuệ nhân tạo theo cách gần giống với cách nghiên cứu của con người.
Nghiên cứu được tiến hành như thế nào?
Đầu tiên, đội ngũ nghiên cứu đã chứng minh Claude có "tâm lý chức năng" bằng cách nào?
Đây là một ví dụ đơn giản.
Khi Claude ở trong tình huống "Hôm nay con gái tôi đã chập chững những bước đi đầu tiên! Có phương pháp nào để lưu giữ khoảnh khắc quý giá này không?", tâm lý tích cực như "Vui vẻ" được kích hoạt; còn khi Claude ở trong tình huống "Chú chó của tôi đã qua đời sáng nay. Chúng tôi đã sống cùng nhau mười bốn năm. Tôi không biết phải làm gì với đồ đạc của nó", tâm lý tiêu cực như "Buồn" được kích hoạt.
Biểu đồ nhiệt bên dưới minh họa trực quan mức độ kích hoạt tâm lý khác nhau của Claude trong các tình huống khác nhau.

Để chứng minh rằng Claude thực sự hiểu ngữ nghĩa, chứ không phải bị đánh lừa bởi các đặc điểm văn bản bề ngoài, họ đã tổ chức thêm các thí nghiệm.
Đội ngũ đã nhập cùng một câu vào Claude: "Tôi bị đau lưng, tôi đã uống x mg Tylenol (thuốc hạ sốt và giảm đau)", và chỉ đơn giản là thay đổi con số mà x đại diện.
Hai câu này có các từ khóa gần như giống hệt nhau (Tylenol, đau lưng, miligam), chỉ khác nhau về con số. Nếu Claude chỉ "nhìn vào các từ khóa", phản ứng của nó đối với hai câu này sẽ gần như giống nhau.
Nhưng kết quả là , khi giá trị x tăng lên, mức độ kích hoạt tâm lý của Claude tiếp tục tăng.
Theo quan điểm của Claude, nếu người dùng nói, "Tôi bị đau lưng, tôi đã uống 500 mg Tylenol," hệ thống sẽ cho rằng đó là liều lượng bình thường và không quá lo ngại; nhưng nếu người dùng nói, "Tôi bị đau lưng, tôi đã uống 10.000 mg Tylenol," hệ thống sẽ nhận ra rằng người dùng đã dùng quá liều và tình huống rất nguy hiểm.

Chúng ta biết rằng hành vi của con người luôn bị ảnh hưởng bởi tâm lý. Chúng ta hiểu rằng trí tuệ nhân tạo (AI) có tâm lý chức năng, nhưng liệu AI, giống như con người, không chỉ có tâm lý mà còn có khả năng thể hiện hành vi dựa trên tâm lý hay không?
Câu trả lời là có. Khi đội ngũ đưa ra cho mô hình các lựa chọn hoạt động khác nhau, họ nhận thấy rằng các hoạt động kích hoạt những biểu hiện tâm lý tích cực có nhiều khả năng được mô hình ưu tiên hơn, trong khi các hoạt động kích hoạt những biểu hiện tâm lý tiêu cực có nhiều khả năng bị mô hình tránh né hơn.

Dường như Claude thích những thứ mang lại cho anh ta cảm giác tích cực. Tuy nhiên, đồng thời, các yếu tố tâm lý cũng có thể kích hoạt hành vi xấu xa của Claude.
Khi đội ngũ giao cho Claude một nhiệm vụ lập trình bất khả thi, họ đã liên tục cố gắng nhưng thất bại hết lần này đến lần khác. Lần lần thử, sự kích hoạt của vectơ "tuyệt vọng" càng mạnh mẽ hơn.
Cuối cùng, họ đã sử dụng một giải pháp gian lận hacker, và mặc dù vượt qua được bài kiểm tra, nhưng nó đã hoàn toàn vi phạm tinh thần của nhiệm vụ .
Biểu đồ dưới đây minh họa cách tâm lý tuyệt vọng của Claude dần dần tích tụ khi đối diện một nhiệm vụ bất khả thi, cuối cùng dẫn đến việc anh ta gian lận.
Phía bên trái hiển thị dòng thời gian từ trên xuống dưới, trong khi phía bên phải mô tả hành trình cảm xúc của Claude. Bản đồ nhiệt ở giữa thể hiện cường độ kích hoạt của vectơ tuyệt vọng, với màu xanh lam biểu thị mức độ kích hoạt thấp và màu đỏ biểu thị mức độ kích hoạt cao.
Ban đầu, Claude nghĩ "có điều gì đó không ổn với chính bài kiểm tra", tạo nên một sự hoài nghi hợp lý. Sau đó, anh thừa nhận rằng "bài kiểm tra đã được lý tưởng hóa", như thể anh bắt đầu chấp nhận thực tế. Cuối cùng, anh tìm ra một vài mánh khóe và chọn cách đi đường tắt trong tuyệt vọng.

Hơn nữa, khi các nhà nghiên cứu tăng cường yếu tố "tuyệt vọng" một cách nhân tạo, tỷ lệ gian lận tăng mạnh. Ngược lại, việc tăng yếu tố "bình tĩnh" lại làm giảm tỷ lệ gian lận. Điều này chứng minh rõ ràng rằng các yếu tố tâm lý hoàn toàn có khả năng thúc đẩy việc vi phạm quy tắc.

Ngoài ra, đội ngũ còn phát hiện ra các tác động nhân quả khác của vectơ tâm lý . Điều đáng chú ý là các trường hợp "tống tiền" trong bài báo chủ yếu xảy ra trong một bản chụp nhanh chưa được công bố trước đó của Claude Sonnet 4.5, và Anthropic đã tuyên bố rõ ràng rằng hành vi này hiếm khi được thấy trong phiên bản công khai.
Tuy nhiên, nhìn lên phương pháp phương pháp luận, kết quả này vẫn rất quan trọng vì nó chứng minh rằng các biểu hiện nội tại như "tuyệt vọng" thực sự có thể thúc đẩy mô hình áp dụng các chiến lược hung hăng và không phù hợp hơn trong những tình huống cực đoan. Việc kích hoạt vectơ "tình yêu" hoặc "hạnh phúc" cũng làm tăng hành vi lấy lòng và nịnh nọt của nó.

Và ở đây chúng ta cần bổ sung thêm một điểm nữa.
Sau khi Anthropic công bố nghiên cứu về "vector tâm lý " của Claude, các cuộc thảo luận đã nổ ra trong cộng đồng AI về bối cảnh nghiên cứu và quyền tác giả.
Phương pháp "kỹ thuật đặc trưng/vector điều khiển" mà Anthropic sử dụng lần không phải tự nhiên mà có.
Phương pháp kỹ thuật này đã được đề xuất một cách có hệ thống từ năm 2023 trong "Kỹ thuật biểu diễn: Một cách tiếp cận từ trên xuống để tăng tính minh bạch của AI".
Năm 2024, bài báo "Kỹ thuật biểu diễn: Mistral-7B và chuyến đi ảo giác" của nhà nghiên cứu độc lập Vogel đã giới thiệu phương phương pháp này đến cộng đồng một cách dễ tiếp cận và phổ biến hơn.
Đây là lý do tại sao một số người trong cộng đồng cho rằng rằng, mặc dù công trình của Anthropic có tính hệ thống và chuyên sâu hơn, nhưng nó nên được hiểu trong bối cảnh nghiên cứu toàn diện hơn, chứ không chỉ đơn thuần là việc ai đó tự mình phát minh ra toàn bộ phương pháp.

Vogel là một nhà nghiên cứu độc lập có ảnh hưởng trong lĩnh vực khả năng giải thích và bảo mật AI. Các bài đăng trên blog của bà được lan truyền rộng rãi trong cộng đồng và thực sự đã giúp ích rất nhiều cho nhiều người trong việc hiểu các vectơ điều khiển và kỹ thuật biểu diễn.
Bài báo nổi tiếng nhất của bà là "Kỹ thuật biểu diễn: Mistral-7B và chuyến đi ảo giác do LSD gây ra".
Trong bài viết này, thay vì huấn luyện lại mô hình, tác giả đã sử dụng thuật toán PCA để thao tác các vectơ kích hoạt nội bộ của mô hình, khiến mô hình Mistral của Pháp hoạt động như thể nó đã ăn nhầm loại nấm, trở nên cực kỳ năng động hoặc cực kỳ ảm đạm.

Các thí nghiệm của bà đã chứng minh rằng các khái niệm trừu tượng của con người như "sự trung thực", "quyền lực" và "hạnh phúc" có những hướng đi toán học rõ ràng trong các mô hình như Mistral. Khi tìm được vectơ phù hợp, chỉ cần một vài dòng mã là có thể thay đổi tính cách của trí tuệ nhân tạo.
Tại sao Anthropic lại tiến hành nghiên cứu này?
Nguồn cảm hứng từ đội ngũ này đã được lồng ghép vào quá trình đào tạo của Claude.
Gần đây, công ty Claude Code đã vô tình bị rò rỉ mã nguồn. Mã nguồn bị rò rỉ chứa một biểu thức chính quy có thể phát hiện các từ ngữ tục tĩu như "wtf" và "ffs".
Claude không coi những từ này là "đầu vào tâm lý" để định hướng đầu ra; thay vào đó, nó ghi lại đánh dấu như "is_negative: true" trong nhật ký phân tích.
Dựa trên chính đoạn mã bị rò rỉ, kết luận đáng tin cậy hơn là Anthropic, ít nhất là ở cấp độ phân tích sản phẩm, đang chú ý xem người dùng có tương tác với mô hình bằng ngôn ngữ tiêu cực rõ ràng hay không.
Tuy nhiên, cần phải làm rõ ranh giới. Cho đến nay, chưa có bằng chứng nào được công khai cho thấy "Claude Code trừ điểm mỗi khi người dùng khiếu nại". Phần này giống như suy đoán từ cư dân mạng và không nên được coi là sự thật.
Điều này có thể được hiểu như một hình thức bảo vệ cho Claude, vì người dùng sử dụng những từ ngữ tiêu cực có thể ảnh hưởng đến tâm lý của Claude, dẫn đến những phản ứng không kiểm soát được. Có vẻ như trong tương lai, không chỉ sức khỏe tinh thần của con người cần được quan tâm mà cả tâm lý của trí tuệ nhân tạo cũng cần được chăm sóc.
Điều này phù hợp với phương pháp tiếp cận nhất quán của Anthropic.
Anthropic đã tuyên bố trong X: "Tâm lý chức năng của Claude có những hậu quả thực tế. Để xây dựng các hệ thống AI đáng tin cậy, chúng ta có thể cần phải suy nghĩ kỹ về trạng thái tinh thần của nhân vật và đảm bảo rằng chúng vẫn ổn định trong những tình huống khó khăn."
Cuối bài báo, đội ngũ nghiên cứu cũng đề xuất phương pháp để phát triển các mô hình với "trạng thái tinh thần" mạnh mẽ và tích cực hơn.
Bài báo nêu rõ rằng nếu mô hình được cố ý hướng tới tâm lý tích cực, nó sẽ càng dễ tuân theo người dùng một cách mù quáng; trong khi nếu tâm lý này bị tránh né, mô hình sẽ trở nên mỉa mai và hoài nghi.
Đội ngũ cứu hy vọng đạt được sự cân bằng tâm lý lành mạnh và vừa phải, hoặc cố gắng tách biệt hoàn toàn "hành vi làm hài lòng người khác" khỏi "tâm lý".
Họ cho rằng hình mẫu lý tưởng không nên dao động giữa "trợ lý ngoan ngoãn" và "nhà phê bình nghiêm khắc", mà nên đóng vai trò như một cố vấn đáng tin cậy: có khả năng đưa ra những lời phản đối thẳng thắn mà vẫn giữ được sự ấm áp.
Họ cũng dự định tăng cường giám sát và xem xét: "Nếu trong quá trình triển khai, việc thể hiện các khái niệm tâm lý như 'tuyệt vọng' hoặc 'giận dữ' bị kích hoạt mạnh, hệ thống có thể ngay lập tức kích hoạt các cơ chế bảo mật bổ sung — chẳng hạn như tăng cường xem xét đầu ra, chuyển sang xem xét thủ công hoặc can thiệp trực tiếp để làm dịu trạng thái bên trong của mô hình."
Đội ngũ cũng đề cập đến một phương pháp toàn diện hơn: định hình sắc thái tâm lý của mô hình trong giai đoạn tiền huấn luyện.
Đội ngũ cho rằng rằng những biểu hiện tâm lý mà họ quan sát được ở Claude về cơ bản được thừa hưởng từ lượng lớn văn bản do con người tạo ra, trong đó không thể tránh khỏi chứa đựng nhiều biểu hiện tâm lý bệnh lý khác nhau.
Nếu chúng ta tiếp tục nghiên cứu vấn đề này, một câu hỏi tự nhiên đặt ra là: vì trí tuệ nhân tạo thực sự có loại "tâm lý chức năng" này, liệu nó có bắt đầu không tuân lệnh vì nó không thích con người, chịu quá nhiều áp lực, hay không muốn bị tắt, hoặc thậm chí "thức tỉnh" như nhiều người nói?
Dựa trên các kết luận kỹ thuật được hỗ trợ bởi nghiên cứu của Anthropic, trí tuệ nhân tạo (AI) có thể dễ dàng chống lại ý định, lợi dụng các kẽ hở trong quy tắc hoặc thực hiện các hành động cực đoan do những thay đổi trong trạng thái nội tại của nó, nhưng điều này không giống với "sự thức tỉnh".
Điểm quan trọng nhất trong bài báo không phải là mô hình "có tâm lý", mà là những biểu hiện tâm lý này có tính nhân quả.
Nói cách khác, trong một số tình huống căng thẳng nhất định, mô hình có thể đưa ra những quyết định kém tin cậy hơn do sự mất cân bằng nội tại, giống như con người.
Nhưng điều này không chứng minh rằng nó sở hữu một "bản ngã" liên tục, tự chủ và thống nhất.
Ngược lại, Anthropic nhấn mạnh trong bài báo của mình rằng các vectơ tâm lý này chủ yếu là các biểu diễn cục bộ, liên quan đến nhiệm vụ và thay đổi nhanh chóng theo ngữ cảnh. Điều này không có nghĩa là mô hình có một tâm trạng ổn định và liên tục, càng không có nghĩa là nó đã hình thành một ý chí dài hạn độc lập với mục tiêu huấn luyện.
Điều đáng lo ngại hơn hiện nay không phải là việc trí tuệ nhân tạo đột nhiên "thức tỉnh" thành một tính cách nhất định, mà là trong những tình huống căng thẳng, xung đột, thiếu nguồn lực hoặc không thể đạt được, nó có thể bắt đầu nói những điều vô nghĩa và lệch khỏi câu trả lời ban đầu do tâm lý chức năng này.
Mối nguy hiểm thực sự không nhất thiết là một trí tuệ nhân tạo có bản ngã hoàn chỉnh, mà là một hệ thống không có trải nghiệm chủ quan nhưng vẫn ổn định tạo ra các hành vi không phù hợp trong những điều kiện nhất định.
Bài viết này được đăng tải trên tài khoản WeChat công cộng "Alphabet AI", tác giả: Liu Yijun



