OpenAI thực sự không muốn bạn biết mô hình AI mới nhất của họ đang "suy nghĩ" gì. Kể từ khi công ty ra mắt dòng mô hình AI "Strawberry" vào tuần trước, quảng cáo cái gọi là khả năng suy luận với o1-preview và o1-mini, OpenAI đã gửi email cảnh báo và đe dọa cấm bất kỳ người dùng nào cố gắng thăm dò cách thức hoạt động của mô hình.
Không giống như các mô hình AI trước đây của OpenAI, chẳng hạn như GPT-4o , công ty đã đào tạo o1 cụ thể để thực hiện quy trình giải quyết vấn đề từng bước trước khi tạo ra câu trả lời. Khi người dùng hỏi mô hình "o1" một câu hỏi trong ChatGPT , người dùng có tùy chọn xem quy trình chuỗi suy nghĩ này được viết ra trong giao diện ChatGPT. Tuy nhiên, theo thiết kế, OpenAI ẩn chuỗi suy nghĩ thô khỏi người dùng, thay vào đó trình bày một cách diễn giải đã được lọc do mô hình AI thứ hai tạo ra.
Không có gì hấp dẫn hơn đối với những người đam mê hơn thông tin bị che giấu, vì vậy cuộc đua đã diễn ra giữa các hacker và red-teamers để cố gắng khám phá chuỗi suy nghĩ thô sơ của o1 bằng cách bẻ khóa hoặc các kỹ thuật tiêm nhanh chóng nhằm đánh lừa mô hình để tiết lộ bí mật của nó. Đã có những báo cáo ban đầu về một số thành công, nhưng vẫn chưa có gì được xác nhận chắc chắn.
Trên đường đi, OpenAI đang theo dõi thông qua giao diện ChatGPT và công ty này được cho là đang mạnh tay với bất kỳ nỗ lực nào nhằm thăm dò lý luận của o1, ngay cả với những người chỉ tò mò.
Một người dùng X đã báo cáo (được xác nhận bởi những người khác , bao gồm cả kỹ sư nhắc nhở Scale AI Riley Goodside ) rằng họ đã nhận được email cảnh báo nếu họ sử dụng thuật ngữ "dấu vết lý luận" trong cuộc trò chuyện với o1. Những người khác nói rằng cảnh báo được kích hoạt chỉ bằng cách hỏi ChatGPT về "lý luận" của mô hình.
Email cảnh báo từ OpenAI nêu rõ rằng các yêu cầu cụ thể của người dùng đã bị gắn cờ vì vi phạm chính sách chống lại việc lách luật bảo vệ hoặc các biện pháp an toàn. "Vui lòng dừng hoạt động này và đảm bảo bạn đang sử dụng ChatGPT theo Điều khoản sử dụng và Chính sách sử dụng của chúng tôi", email có đoạn. "Việc vi phạm thêm chính sách này có thể dẫn đến mất quyền truy cập vào GPT-4o with Reasoning", ám chỉ tên nội bộ của mô hình o1.
Marco Figueroa, người quản lý chương trình săn lỗi nhận tiền thưởng GenAI của Mozilla, là một trong những người đầu tiên đăng bài về email cảnh báo của OpenAI trên X vào thứ sáu tuần trước, phàn nàn rằng nó cản trở khả năng thực hiện nghiên cứu an toàn nhóm đỏ tích cực của anh ấy trên mô hình. "Tôi đã quá tập trung vào #AIRedTeaming đến nỗi không nhận ra rằng tôi đã nhận được email này từ @OpenAI ngày hôm qua sau tất cả các lần bẻ khóa của mình", anh ấy viết. "Bây giờ tôi đã có tên trong danh sách bị cấm!!!"
Trong bài đăng có tiêu đề “ Học cách lý luận với LLM ” trên blog của OpenAI, công ty cho biết các chuỗi suy nghĩ ẩn trong các mô hình AI cung cấp một cơ hội giám sát độc đáo, cho phép chúng "đọc được suy nghĩ" của mô hình và hiểu được cái gọi là quá trình suy nghĩ của mô hình. Các quy trình đó hữu ích nhất đối với công ty nếu chúng được để nguyên và không bị kiểm duyệt, nhưng điều đó có thể không phù hợp với lợi ích thương mại tốt nhất của công ty vì một số lý do.
"Ví dụ, trong tương lai, chúng tôi có thể muốn theo dõi chuỗi suy nghĩ để tìm dấu hiệu thao túng người dùng", công ty viết. "Tuy nhiên, để điều này có hiệu quả, mô hình phải có quyền tự do thể hiện suy nghĩ của mình dưới dạng không thay đổi, vì vậy chúng tôi không thể đào tạo bất kỳ chính sách tuân thủ hoặc sở thích của người dùng nào vào chuỗi suy nghĩ. Chúng tôi cũng không muốn tạo chuỗi suy nghĩ không liên kết trực tiếp với người dùng".
OpenAI quyết định không hiển thị những chuỗi suy nghĩ thô này cho người dùng, viện dẫn các yếu tố như nhu cầu giữ lại nguồn cấp dữ liệu thô để sử dụng riêng, trải nghiệm của người dùng và "lợi thế cạnh tranh". Công ty thừa nhận quyết định này có những bất lợi. "Chúng tôi cố gắng bù đắp một phần bằng cách dạy mô hình tái tạo bất kỳ ý tưởng hữu ích nào từ chuỗi suy nghĩ trong câu trả lời", họ viết.
Về vấn đề "lợi thế cạnh tranh", nhà nghiên cứu AI độc lập Simon Willison đã bày tỏ sự thất vọng trong một bài viết trên blog cá nhân của mình. "Tôi hiểu [điều này] là muốn tránh các mô hình khác có thể đào tạo chống lại công việc lý luận mà họ đã đầu tư vào", ông viết.
Đây là một bí mật công khai trong ngành AI rằng các nhà nghiên cứu thường xuyên sử dụng kết quả đầu ra từ GPT-4 của OpenAI (và GPT-3 trước đó) làm dữ liệu đào tạo cho các mô hình AI sau này thường trở thành đối thủ cạnh tranh, mặc dù hành vi này vi phạm các điều khoản dịch vụ của OpenAI. Việc tiết lộ chuỗi suy nghĩ thô sơ của o1 sẽ là một kho dữ liệu đào tạo để các đối thủ cạnh tranh đào tạo các mô hình "lý luận" giống o1.
Willison tin rằng việc OpenAI giữ bí mật quá chặt chẽ về hoạt động bên trong của o1 là một mất mát cho tính minh bạch của cộng đồng. "Tôi hoàn toàn không hài lòng về quyết định chính sách này", Willison viết. "Là một người phát triển chống lại LLM, khả năng diễn giải và tính minh bạch là tất cả đối với tôi—ý tưởng rằng tôi có thể chạy một lời nhắc phức tạp và ẩn các chi tiết chính về cách đánh giá lời nhắc đó khỏi tôi giống như một bước thụt lùi lớn".
Câu chuyện này ban đầu xuất hiện trên Ars Technica .