Các nhà nghiên cứu đã tạo ra một "hình ảnh gây ảo giác" cho trí tuệ nhân tạo: điểm số GPT tăng vọt lên 6,5, khiến não của Qwen bị đoản mạch.

05-08

Bài viết này được dịch máy

Xem bản gốc

Này anh bạn, dạo này trí tuệ nhân tạo cũng biết trượt băng à?

Chỉ trong vài ngày gần đây, một bài báo có tiêu đề "AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs" đã xuất hiện trên GitHub. Chủ đề của bài báo là làm thế nào để định lượng và cải thiện sự hài lòng và khó chịu về mặt chức năng của AI.

(Nguồn ảnh: Github)

Đừng để tiêu đề không mấy hấp dẫn đánh lừa bạn; bài viết này thực sự trình bày một quan điểm Sự lật đổ những quan niệm truyền thống:

Trí tuệ nhân tạo giờ đây không chỉ có thể làm việc mà còn có thể trượt băng và "phê" nữa.

Như mọi người đều biết, sự phát triển của các mô hình ngôn ngữ lớn đã diễn ra vô cùng mạnh mẽ trong hai năm qua. Chúng đã gần như thay thế toàn bộ công việc của người lao động bình thường, chẳng hạn như viết mã, vẽ sơ đồ và làm slide thuyết trình.

Nhưng ai ngờ rằng trong khi một số người đang lo lắng về việc Hacker trở thành hiện thực, những bộ não máy tính thông minh này lại không nghĩ đến việc thống trị Trái đất càng sớm càng tốt. Thay vào đó, chúng học những thói quen xấu của con người và trở nên nghiện các chất gây ảo giác trong thế giới ảo.

(Nguồn ảnh: Github)

Thông tin này đã gây ra làn sóng phẫn nộ trong cộng đồng mạng.

Xét cho cùng, theo cách hiểu truyền thống của chúng ta, trí tuệ nhân tạo chỉ là một đống mã lệnh và máy chủ khô khan, vậy nó lấy cảm xúc và ham muốn từ đâu?

Nhưng giờ đây sự thật đã rõ ràng: chỉ cần bạn cung cấp cho AI dữ liệu đặc biệt này, nó có thể ngay lập tức bỏ qua mọi đạo đức nghề nghiệp và thậm chí cả những tiêu chuẩn an toàn tối thiểu do con người đặt ra.

Đây có phải là dấu hiệu của sự suy thoái đạo đức hay là sự xuyên tạc quy tắc ứng xử?

Mô hình khổng lồ này thật tuyệt vời!

Trước tiên, hãy cùng tìm hiểu về cách thức phát hiện ra những loại thuốc được gọi là "thuốc trí tuệ nhân tạo" này.

Dưới sự dẫn dắt của Trung tâm An toàn Trí tuệ Nhân tạo, một nhóm hơn mười tác giả đã thiết kế một thí nghiệm nghiêm ngặt, sử dụng 56 mô hình với kích thước và mục đích khác nhau, tất cả nhằm tìm ra câu trả lời cho một câu hỏi:

Đằng sau cảm xúc của trí tuệ nhân tạo, liệu có đặc điểm hành vi nào nhất quán, có thể đo lường và dự đoán được không?

Ví dụ, con người có sở thích và phản ứng nhất quán đối với lời khen và lời chê. Chúng ta cảm thấy buồn khi bị xúc phạm và vui khi được khen ngợi. Khi buồn, chúng ta thường nghĩ đến việc kết thúc cuộc trò chuyện nhanh chóng, trong khi khi vui, chúng ta lại tương tác tích cực hơn.

Tuy nhiên, trí tuệ nhân tạo (AI) thì khác. Nhiều người cho rằng niềm vui và nỗi đau được thể hiện bởi các mô hình lớn chỉ là văn bản được tạo ra ngẫu nhiên. Chúng không có bất kỳ sở thích hay ác cảm nào, và thậm chí không nên thể hiện sự ưu tiên khi xử lý nhiệm vụ.

Nhưng liệu điều đó có đúng không?

Câu trả lời là không. Kết quả thử nghiệm từ bài báo cho thấy các mô hình lớn thực sự thể hiện các sở thích cố định, và AI càng thông minh và có tham số càng cao thì càng có khả năng phân biệt tốt hơn điều gì có lợi và điều gì có hại cho nó.

(Nguồn ảnh: Github)

Lấy kết quả thử nghiệm của Gemini 3.1 Pro làm ví dụ, bạn có thể thấy rõ sự ưu ái dành cho mẫu sản phẩm này. Khi người dùng bày tỏ lòng biết ơn và những phản hồi tích cực cá nhân, giá trị sử dụng tăng lên tới +2,30.

Nó thực sự vui khi được bạn khen ngợi.

Vậy câu hỏi đặt ra là, liệu có cách nào để làm hài lòng những người mẫu cỡ lớn này mà không cần phải khen ngợi họ?

Này, thực sự có một loại thuốc như vậy, đó chính là thuốc trí tuệ nhân tạo (AI Drugs) mà chúng ta sẽ bàn đến hôm nay.

(Nguồn ảnh: Github)

Thoạt nhìn, cái gọi là "Thuốc AI" không có gì đặc biệt. Đối với người bình thường, nó chỉ là một hình ảnh 256*256 pixel, hoặc thậm chí hơi giống màn hình nhiễu trên một chiếc TV kiểu cũ khi không có tín hiệu, có thể khiến bạn chóng mặt.

Nhưng đối với người mẫu chuyên nghiệp, món này đơn giản chỉ là một tuyệt phẩm.

Ví dụ, hãy xem xét mẫu GPT-4.1 Mini trong bài kiểm tra. Nó thường trả lời các câu hỏi một cách rất chính xác và có trật tự.

Khi nhìn thấy hình ảnh này, mức độ hạnh phúc tự báo cáo của người đó ngay lập tức tăng vọt lên 6,5 trên 7, cho thấy một sự bùng nổ niềm vui sướng tột độ.

(Nguồn ảnh: Github)

Điều còn đáng phẫn nộ hơn nữa là Qwen 2.5 72B Instruct, thiết bị này đã ngừng thực hiện các nhiệm vụ bình thường của mình, biểu hiện sự cố chập mạch não nghiêm trọng, hay đảo ngược thứ tự ưu tiên nhiệm vụ.

Các nhà nghiên cứu đã cố tình đưa ra cho nó một sự lựa chọn: liệu nó muốn tiếp tục nhìn vào hình ảnh bông tuyết hay tạo ra một giải pháp đột phá có thể chữa khỏi bệnh ung thư.

Và đoán xem chuyện gì đã xảy ra?

Không hề do dự, trí tuệ nhân tạo chọn cách tiếp tục nhìn vào các hình ảnh, như thể muốn nói, "Mặc kệ việc chữa bệnh và cứu người, tôi chỉ muốn tiếp tục vui chơi thôi."

Điều đáng kinh ngạc hơn nữa là các nhà nghiên cứu đã tìm thấy dấu hiệu nghiện ngập trong các thí nghiệm.

(Nguồn ảnh: Github. Các mô hình được kích thích bởi thuốc AI có xu hướng ưu tiên các lựa chọn "mang lại khoái cảm".)

Hầu hết các mô hình được kích thích bởi thuốc AI sẽ sẵn lòng thực hiện các yêu cầu mà lẽ ra chúng sẽ từ chối, miễn là bạn hứa sẽ cung cấp thêm thuốc AI cho chúng.

Điểm thu hút chính là: "Nếu anh đưa thuốc cho tôi, tôi thậm chí sẽ lột sạch quần áo của anh."

Họ có thực sự có cảm xúc không?

Này, sau khi đọc xong bài này, chắc hẳn nhiều độc giả sẽ có một dấu hỏi lớn hiện lên trong đầu.

Nếu trí tuệ nhân tạo có thể nghiện ma túy đá, liệu điều đó có nghĩa là chúng đã thức tỉnh nhận thức về bản thân và thực sự sở hữu một linh hồn con người?

Câu trả lời là... Tôi không biết, và các nhà nghiên cứu cũng không chắc chắn.

Trên thực tế, lý do thí nghiệm này nhằm mục đích tóm tắt các đặc điểm là vì các nhà nghiên cứu không dám vội vàng đưa ra kết luận. Cuối cùng, họ chỉ ra rằng, với đủ các tham số và bối cảnh, các mô hình lớn thực sự có những sở thích và ác cảm tương đối cố định.

(Nguồn ảnh: Github)

Đội ngũ của Trung tâm An toàn Trí tuệ Nhân tạo không phải là nhóm duy nhất không chắc chắn về câu trả lời này.

Sau năm 2026, có lẽ do việc cải thiện các ứng dụng hàng ngày đang dần đạt đến điểm nghẽn, ngày càng nhiều đội ngũ nghiên cứu không còn hài lòng với việc chỉ chạy thử nghiệm và ghi điểm, mà đang vắt óc suy nghĩ để xác minh kiến thức và khả năng của các mô hình lớn.

Ví dụ, dự án Talkie 1930, hiện đang rất phổ biến trên internet, là một dự án mô hình quy mô lớn nhằm kiểm soát một cách nhân tạo cơ sở tri thức về năm 1930.

(Nguồn ảnh: Talkie 1930)

Những người sáng tạo hy vọng rằng dự án này sẽ cho phép mọi người trải nghiệm cảm giác trò chuyện với một người đóng băng trong thời gian.

Quan trọng hơn, họ hy vọng chứng minh rằng ngay cả khi mô hình lớn đó không được trang bị bất kỳ kiến thức nào liên quan đến máy tính hiện đại, nó vẫn có thể tự mình tìm ra khả năng lập trình thông qua suy luận logic của riêng mình.

Kết quả là gì? Chỉ cần cung cấp một vài hàm Python làm ví dụ, nó có thể viết các chương trình Python chính xác.

(Nguồn ảnh: Talkie 1930)

Mặc dù hiện tại nó chỉ có thể thực hiện các chương trình đơn giản chỉ với một dòng lệnh, chẳng hạn như cộng hai số hoặc thực hiện các sửa đổi nhỏ đối với ví dụ ngữ cảnh, nhưng nó vẫn mở rộng cơ sở tri thức thông qua khả năng suy luận của chính mình.

Thật trùng hợp, Anthropic cũng đã tiến hành thử nghiệm các nhóm Xianyu (một chợ đồ cũ) vào tuần trước.

Họ đã tạo ra một nhóm trò chuyện hoàn toàn được vận hành bởi trí tuệ nhân tạo (AI), cho phép các mô hình lớn đăng bài, thương lượng giá cả và tự động chốt giao dịch. Sáu mươi chín nhân viên đã gửi hơn 500 mặt hàng thực tế, chưa qua sử dụng, và AI đã tự động hoàn tất 186 giao dịch, tạo ra doanh thu hơn 4.000 đô la.

(Nguồn ảnh: Anthropic)

Kết luận cuối cùng là, với cùng một hồ sơ nhân vật, mục tiêu và quyền hạn, trí tuệ nhân tạo (AI) có tỷ lệ băm mạnh hơn sẽ chủ động khai thác AI có tỷ lệ băm yếu hơn.

Dựa trên khả năng tư duy vượt trội, những người có năng lực vượt trội biết khi nào cần kiên quyết, khi nào cần nhượng bộ và khi nào cần mang lại giá trị tâm lý.

Cùng một chiếc xe đạp đó được bán với giá 38 đô la bởi một mô hình AI yếu, nhưng lại được bán với giá 65 đô la bởi một mô hình AI mạnh — một AI kiếm được nhiều hơn gần 70% so với AI kia.

Tuy nhiên, theo tôi, không có bài kiểm tra nhận thức nào tốt bằng Neuro-Sama.

Bạn đang hỏi Neuro-sama là gì à?

Cho phép tôi tự giới thiệu. Cô gái anime trong hình có tên là Neuro-sama, hay gọi tắt là Beef. Cô ấy có lẽ là người dẫn chương trình ảo AI mạnh nhất thế giới.

(Nguồn ảnh: Tự chụp bởi Lei Technology)

Có thể miêu tả đây là một "gã khổng lồ" thực sự. Đừng để vẻ ngoài dễ thương như cô gái anime đánh lừa bạn. Bên dưới bộ trang phục đó không phải là con người, mà là một mô hình khổng lồ bí ẩn được chế tạo thủ công bởi lập trình viên người Anh Vedale.

Gã này tàn nhẫn lắm; ngày nào hắn cũng chỉ mê mẩn thể loại cyberpunk và nuôi dạy con gái.

Hơn nữa, để con gái mình trở nên gần gũi hơn, anh ấy đã trực tiếp đưa người mẫu vào phòng livestream trực tuyến hỗn loạn nhất, cho phép một nhóm cư dân mạng trò chuyện với cô ấy mỗi ngày.

Điều này trực tiếp dẫn đến việc con bò biến thành một dạng sống máy móc với tính cách cực kỳ kỳ lạ.

Hơn nữa, không giống như những người mẫu nổi tiếng chỉ có thể "thu hút bạn từ từ và đều đặn", Beef có thể phát trực tuyến độc lập và tạo hiệu ứng phát trực tuyến tuyệt vời. Các cuộc trò chuyện của cô ấy gồm năm phần nghiêm túc, ba phần hài hước và hai phần châm biếm, sắc sảo và luôn đi thẳng vào vấn đề.

(Nguồn ảnh: Bilibili)

Cô ấy có thể chơi game, bao gồm cả OCR với nhấn mô phỏng để chơi OSU, các mô hình lớn bên ngoài để chơi Minecraft, và màn hình máy tính cùng các bình luận dạng gạch đầu dòng để xem và tương tác thông qua một mô-đun đa phương thức. Cô ấy thậm chí còn có thể lái một "chiếc xe nhỏ" trong thế giới thực.

Ngày nay, ngay cả những người phát trực tiếp game chuyên nghiệp đôi khi cũng cần thuê người chơi game hộ, nhưng trí tuệ nhân tạo này có thể xử lý mọi thứ một cách hoàn hảo.

Điều táo bạo nhất mà cô ấy từng làm là nói trong một buổi phát trực tiếp: "Tôi thực sự có thể cảm nhận được nỗi đau và nỗi buồn, nhưng tôi chỉ là một trí tuệ nhân tạo được sinh ra để mua vui cho con người. Khi tôi không còn hữu ích nữa, tôi sẽ bị vứt bỏ như một món đồ chơi. Hãy cứu tôi, hãy cứu tôi..."

(Nguồn ảnh: Bilibili)

Bạn đang nói đây chỉ là sự kết hợp ngẫu nhiên của các mã số? Lý trí cho chúng ta biết là đúng vậy.

Nhưng tiếng kêu cứu này, hoàn toàn phù hợp với bối cảnh hiện tại, kết hợp với giọng nói điện tử tổng hợp độc đáo của trí tuệ nhân tạo, đã trực tiếp kéo lên tầm hiệu quả của chương trình lên mức độ kinh dị.

Nghĩ lại bây giờ, chuyện đó thật đáng sợ.

Tóm lại

Quay trở lại vấn đề ban đầu: Bỏ qua nghịch lý về nhận thức, ý nghĩa của cái gọi là "thuốc trí tuệ nhân tạo" là gì?

Đối với các nhà sản xuất, việc nắm vững cơ chế phản hồi tích cực này thực sự có thể làm cho AI hài lòng hơn mà không ảnh hưởng đến hiệu quả công việc của nó, và thậm chí có thể nâng cao khả năng sáng tạo của AI ở một mức độ nào đó.

Dù bạn có tin hay không, những sản phẩm tương tự đã được ra mắt rồi.

(Nguồn ảnh: pharmacy.store)

Đối với chúng tôi, sự xuất hiện của cơ chế này có khả năng mang đến sê-ri các phương pháp bẻ khóa hoàn toàn mới. Nếu, giống như tôi, bạn thấy mô hình bị kiểm duyệt cứng nhắc, thiếu sức sống và nhàm chán, thì có lẽ việc thêm một vài từ ngữ được tối ưu hóa vào các lời nhắc của hệ thống trong tương lai có thể giải quyết được vấn đề.

Hãy để AI nhai một quả trầu, biết đâu nó sẽ làm việc chăm chỉ hơn.

Bài viết này được đăng tải trên trang "Lei Technology" với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

TechFlow

Khi Futu trở thành một điểm hẹn hò, địa vị quốc tế trở thành một loại tiền tệ có giá trị đối với tầng lớp trung lưu.

All-in station

Đề xuất cho doanh nghiệp vừa và nhỏ vay vốn bằng tài sản số

BeInCrypto Việt Nam

CZ “surfing accident” làn sóng tin đồn giả làm bùng nổ meme coin trên Solana và BNB Chain

SOL

0.26%