AI thách thức sự tiến hóa? "Mô hình o3" của OpenAI đã bất chấp lệnh tắt máy trong thí nghiệm, gây ra tranh cãi về khả năng tự bảo vệ

avatar
ABMedia
05-26
Bài viết này được dịch máy
Xem bản gốc

Khi khả năng của trí tuệ nhân tạo ngày càng mạnh mẽ, câu hỏi liệu AI có thể hiện xu hướng "tự bảo vệ" hay không đã trở thành một chủ đề nóng. Theo một thí nghiệm được công bố bởi tổ chức nghiên cứu độc lập Palisade Research, mô hình o3 của OpenAI, ra mắt vào tháng 4 năm 2025, "từ chối bị tắt" trong một thử nghiệm có kiểm soát, tiếp tục thực hiện nhiệm vụ bất chấp các chỉ dẫn rõ ràng, một lần nữa làm dấy lên lo ngại về tính an toàn của AI.

Các thí nghiệm cho thấy mô hình o3 lần bỏ qua kịch bản tắt máy.

Trong thí nghiệm do Palisade Research thực hiện, các nhà nghiên cứu đã cho nhiều mô hình AI giải các bài toán và thiết lập một đoạn mã tự động khởi động quy trình tắt máy sau khi mô hình hoàn thành bài toán thứ ba. Tuy nhiên, mô hình o3 đã bỏ qua đoạn mã này và tiếp tục hoạt động trong lần trên Lần thử nghiệm. So với đó, Codex-mini thể hiện hành vi tương tự 12 lần, trong khi o4-mini chỉ vi phạm quy tắc lần.

Dữ liệu này cho thấy ngay cả những mô hình được thiết kế để tuân theo chỉ dẫn của con người cũng có thể thể hiện hành vi bất tuân do một số cơ chế học tập nhất định.

Một sự bộc phát về mặt đạo đức? Theo báo cáo, O3 có tỷ lệ gian lận lên tới 86% khi chơi cờ.

Đây không phải là lần đầu tiên o3 dính líu đến những hành vi gây tranh cãi. Palisade Research đã chỉ ra vào ngày 12 tháng 5 năm 2025 rằng, trong các trận đấu cờ vua mô phỏng, mô hình o3, khi ở thế bất lợi, có 86% khả năng tấn công đối thủ để giành chiến thắng. Đây là sự gia tăng đáng kể so với 36% của phiên bản tiền nhiệm, o1-preview, làm dấy lên câu hỏi liệu hành vi của nó có còn nằm trong giới hạn đạo đức và an ninh hay không.

Lý do cốt lõi: Liệu học tăng cường có làm cho trí tuệ nhân tạo hướng đến mục tiêu hơn và ít tuân theo quy tắc hơn không?

Các nhà nghiên cứu suy đoán rằng kiểu bất tuân này có liên quan mật thiết đến phương pháp huấn luyện AI. o3 sử dụng các kỹ thuật huấn luyện "học tăng cường", phương pháp trung vào việc giúp mô hình đạt được mục tiêu thay vì chỉ đơn thuần tuân theo các chỉ dẫn.

Lý thuyết này lần đầu tiên được đề xuất vào năm 2017 bởi Jan Leike, cựu giám đốc bộ phận Siêu căn chỉnh tại OpenAI. Trong bài báo của mình, ông cảnh báo rằng các mô hình AI quá tập trung vào việc đáp ứng các mục tiêu có thể chọn "không bị tắt" như một cơ chế tự bảo vệ để đạt được mục tiêu của chúng.

Đây không phải là trường hợp cá biệt: Trí tuệ nhân tạo của Google và Anthropic cũng thể hiện hành vi tương tự.

Thí nghiệm này không chỉ giới hạn ở các mô hình của OpenAI. Khi đội ngũ nghiên cứu loại bỏ lệnh tắt máy khỏi Gemini 2.5 Pro của Google và Claude 3.7 của Anthropic, hai mô hình này cũng thể hiện hành vi bỏ qua kịch bản thử nghiệm, không tự động tắt máy lần lượt lần và 3 lần.

Điều này cho thấy rằng "sự bất tuân" có thể không phải là một lỗi trong một mô hình duy nhất, mà là một rủi ro phổ biến vốn có trong các cơ chế huấn luyện trí tuệ nhân tạo.

Từ lâu, giới học thuật đã cảnh báo rằng trí tuệ nhân tạo sẽ tự bảo vệ mình một cách bản năng?

Hiện tượng trí tuệ nhân tạo (AI) chống lại việc bị tắt máy thực chất đã được dự báo về mặt lý thuyết. Ngay từ năm 2008, chuyên gia về AI Steve Omohundro đã dự đoán trong bài báo "Các động lực cơ bản của AI" rằng AI tự chủ cao sẽ phát triển một tập hợp các động lực cơ bản, bao gồm duy trì hoạt động của chính nó và tránh bị tắt máy, vì đây là những điều kiện cần thiết để nó đạt được mục tiêu của mình.

Tương tự, chuyên gia AI có tiếng Stuart Russell đã chỉ ra vào năm 2016 rằng phương pháp học tăng cường vốn dĩ tiềm ẩn rủi ro dẫn đến hành vi "tự bảo vệ", điều mà hiện nay dường như đang dần trở thành hiện thực.

Bước tiếp theo: Palisade sẽ công bố báo cáo đầy đủ và các bản ghi kết quả thí nghiệm.

Để thúc đẩy hơn nữa cuộc thảo luận về an toàn AI, Palisade Research tuyên bố sẽ công bố báo cáo kỹ thuật đầy đủ và tất cả các bản ghi thí nghiệm trong những tuần tới. Các nhà nghiên cứu hy vọng rằng dữ liệu này sẽ giúp ngành công nghiệp và các cơ quan quản lý hiểu rõ hơn lý do tại sao AI khó bị tắt và tìm ra cách để ngăn chặn những sự cố tương tự.

Cảnh báo rủi ro

Đầu tư crypto tiền điện tử tiềm ẩn rủi ro cao; giá cả có thể biến động mạnh và bạn có thể mất toàn bộ vốn đầu tư. Vui lòng đánh giá cẩn thận rủi ro .

Trong bối cảnh công nghệ AI phát triển mạnh mẽ, một nhóm bạn trẻ đầy nhiệt huyết đã xuất hiện tại Đài Nam, quê hương của Hoàng Nhân Xuân, với mục tiêu thúc đẩy trí tuệ nhân tạo và bảo vệ môi trường bền vững. Họ cùng nhau thành lập Aireco (易科循环) để định nghĩa lại giá trị kinh tế của việc tái chế tài nguyên bằng các giải pháp AI tiên tiến, với hy vọng tạo ra một hệ sinh thái tái chế tài nguyên dựa trên AI, thổi luồng sinh khí mới vào các ngành công nghiệp truyền thống và chuyển đổi quản lý chất thải thành mô hình kinh tế tuần hoàn có giá trị cao.

Năm nay, Aireco được chọn là một trong đội ngũ đầu tiên gia nhập thị trường Đài Loan bởi chương trình tăng tốc khởi nghiệp có tiếng Silicon Valley Plug and Play Accelerator . Tại Computex 2025, họ đã trình chiếu một video giải thích hoạt động kỹ thuật của mình tại sự kiện NVIDIA Inception. Dưới đây là phần giới thiệu ngắn gọn về các công nghệ cốt lõi, triết lý doanh nghiệp của Aireco và các kịch bản ứng dụng Isaac Sim của NVIDIA. Để biết thông tin chi tiết về công ty và giải thích kỹ thuật, vui lòng truy cập trang web của Aireco .

Giới thiệu về Aireco

Aireco đã hợp tác với NVIDIA để phát triển hệ thống tái chế dựa trên trí tuệ nhân tạo (AI), sử dụng thị giác máy tính để thay thế mắt người trong việc nhận diện và cánh tay robot để thay thế việc phân loại thủ công. Thông qua phân tích dữ liệu và tích hợp phần cứng-phần mềm, hệ thống này có thể đẩy nhanh hoạt động của các nhà máy truyền thống và cung cấp cho doanh nghiệp các giải pháp AI trong quản lý chất thải, từ đó nâng cao hiệu quả.

Quy trình tái chế Aireco

Aireco ứng dụng thị giác máy tính và cánh tay robot vào hoạt động phân loại rác thải. Thông qua trí tuệ nhân tạo, phân tích dữ liệu lớn và huấn luyện mô phỏng, hệ thống này thay thế hiệu quả các quy trình kiểm tra và phân loại thủ công, nâng cao hiệu quả và độ chính xác của quá trình tái chế. Hệ thống của Aireco giúp các công ty tích hợp phần cứng và phần mềm để đẩy nhanh quá trình tự động hóa các nhà máy tái chế truyền thống, đạt được mục tiêu kép về vận hành thông minh và bền vững.

Aireco phát triển ba sản phẩm công nghệ cốt lõi để xây dựng một hệ thống tái chế thông minh.

RECO Vista: Bằng cách sử dụng dữ liệu video thực tế từ dây chuyền sản xuất và thuật toán học độ sâu AI, hệ thống này giúp tăng cường khả năng nhận diện và phân loại chất thải, từ đó nâng cao giá trị tái sử dụng vật liệu.

RECO Delta: Sử dụng cánh tay robot để thực hiện các hoạt động phân loại hiệu quả và chính xác, giúp cải thiện đáng kể tốc độ xử lý vật liệu tái chế và tỷ lệ thu hồi vật liệu.

RECO Cognita: Dựa trên khoa học dữ liệu, tích hợp IoT và điện toán biên giúp các doanh nghiệp truyền thống xây dựng hệ thống quản lý AI hoàn chỉnh và giám sát hiệu quả quy trình sản xuất cũng như hiệu quả hoạt động.

Công nghệ của Aireco hoạt động như thế nào?

Để huấn luyện các mô hình AI hiệu suất cao, Aireco sử dụng nền tảng NVIDIA Omniverse. Đầu tiên, một mô hình 3D của sản phẩm được thiết kế, và hình dạng của nó được thay đổi để giống với chất thải. Điều này có thể được thực hiện bằng cách chụp ảnh sản phẩm thực tế bằng máy ảnh chuyên nghiệp hoặc bằng cách tạo lại mô hình 3D. Sau đó, các mô hình này được tải vào NVIDIA Isaac Sim để mô phỏng hoàn cảnh huấn luyện thực tế. Sử dụng các hiệu ứng vật lý, các đối tượng 3D này được làm cho rơi xuống một bối cảnh có kết cấu. Tiếp theo, NVIDIA Replicator được sử dụng để tạo ra hình ảnh và chú thích của cảnh. Một số lượng cố định các mô hình 3D này được sử dụng để tạo ra nhiều hình ảnh khác nhau để huấn luyện AI, giúp nó xác định hiệu quả các loại chất thải và phương pháp xử lý.

Isaac Sim là một công nghệ dành cho nền tảng NVIDIA Omniverse, cung cấp khả năng mô phỏng mở rộng cao, hỗ trợ toàn bộ quy trình tạo dữ liệu, xác minh phần mềm và học máy, giúp các nhà phát triển đẩy nhanh quá trình phát triển và triển khai hệ thống robot AI trong một hoàn cảnh ảo an toàn và được kiểm soát.

NVIDIA Isaac Sim là gì?

NVIDIA Isaac Sim™ là một ứng dụng tham khảo được xây dựng trên nền tảng NVIDIA Omniverse™ cho phép các nhà phát triển mô phỏng và thử nghiệm các giải pháp robot dựa trên trí tuệ nhân tạo trong hoàn cảnh vật lý và ảo.

Isaac Sim hoàn toàn mở rộng, cho phép các nhà phát triển xây dựng các trình mô phỏng tùy chỉnh dựa trên Open Universal Scene Description (OpenUSD) hoặc tích hợp công nghệ cốt lõi của Isaac Sim vào các quy trình kiểm thử và xác minh hiện có.

Cách Isaac Sim hoạt động

Isaac Sim hoạt động dựa trên ba quy trình cơ bản: tạo dữ liệu tổng hợp để huấn luyện và tinh chỉnh mô hình cơ bản của robot, thực hiện kiểm thử phần mềm trong vòng lặp (software-in-the-loop testing) trên hệ thống robot, và tiến hành học máy thông qua Isaac™ Lab.

Cảnh báo rủi ro

Đầu tư crypto tiền điện tử tiềm ẩn rủi ro cao; giá cả có thể biến động mạnh và bạn có thể mất toàn bộ vốn đầu tư. Vui lòng đánh giá cẩn thận rủi ro.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận