Đây là cách kiểm duyệt DeepSeek thực sự hoạt động—và cách để vượt qua nó

avatar
WIRED
02-01
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của văn bản trên: Chưa đầy hai tuần sau khi DeepSeek ra mắt mô hình AI nguồn mở của mình, startup Trung Quốc này vẫn thống trị cuộc thảo luận công khai về tương lai của trí tuệ nhân tạo. Mặc dù công ty này dường như có lợi thế so với các đối thủ ở Mỹ về mặt toán học và lập luận, nhưng nó cũng kiểm duyệt một cách quyết liệt các câu trả lời của chính mình. Hãy hỏi DeepSeek R1 về Đài Loan hoặc Thiên An Môn, và mô hình này khó có thể đưa ra câu trả lời. Để tìm hiểu cách thức kiểm duyệt này hoạt động ở mức độ kỹ thuật, WIRED đã kiểm tra DeepSeek-R1 trên chính ứng dụng của nó, một phiên bản ứng dụng được lưu trữ trên một nền tảng bên thứ ba có tên Together AI, và một phiên bản khác được lưu trữ trên máy tính của WIRED, sử dụng ứng dụng Ollama. WIRED nhận thấy rằng trong khi kiểm duyệt trực tiếp nhất có thể dễ dàng tránh được bằng cách không sử dụng ứng dụng của DeepSeek, thì vẫn có những loại thiên kiến khác được nhúng vào mô hình trong quá trình huấn luyện. Những thiên kiến này cũng có thể được loại bỏ, nhưng quy trình này phức tạp hơn nhiều. Những phát hiện này có những hàm ý lớn đối với DeepSeek và các công ty AI Trung Quốc nói chung. Nếu các bộ lọc kiểm duyệt trên các mô hình ngôn ngữ lớn có thể dễ dàng bị loại bỏ, rất có thể các mô hình LLM nguồn mở từ Trung Quốc sẽ càng trở nên phổ biến hơn, vì các nhà nghiên cứu có thể sửa đổi các mô hình theo ý muốn của họ. Tuy nhiên, nếu các bộ lọc khó vượt qua, các mô hình này sẽ không thể hữu ích như mong đợi và có thể trở nên kém cạnh tranh hơn trên thị trường toàn cầu. DeepSeek đã không trả lời yêu cầu bình luận của WIRED. Sau khi DeepSeek nổi lên ở Mỹ, những người truy cập R1 thông qua trang web, ứng dụng hoặc API của DeepSeek nhanh chóng nhận thấy mô hình này từ chối tạo ra các câu trả lời cho các chủ đề được coi là nhạy cảm bởi chính phủ Trung Quốc. Những từ chối này được kích hoạt ở cấp ứng dụng, vì vậy chúng chỉ được nhìn thấy nếu người dùng tương tác với R1 thông qua một kênh do DeepSeek kiểm soát. Những từ chối như vậy là phổ biến trên các mô hình LLM được tạo ra ở Trung Quốc. Một quy định năm 2023 về trí tuệ nhân tạo tạo ra quy định rằng các mô hình AI ở Trung Quốc phải tuân thủ các biện pháp kiểm soát thông tin nghiêm ngặt cũng áp dụng cho mạng xã hội và công cụ tìm kiếm. Luật cấm các mô hình AI tạo ra nội dung "gây hại đến sự thống nhất của đất nước và hòa bình xã hội". Nói cách khác, các mô hình AI Trung Quốc theo luật phải kiểm duyệt đầu ra của chúng. "DeepSeek ban đầu tuân thủ các quy định của Trung Quốc, đảm bảo tuân thủ pháp luật đồng thời làm cho mô hình phù hợp với nhu cầu và bối cảnh văn hóa của người dùng địa phương," Adina Yakefu, một nhà nghiên cứu chuyên về các mô hình AI Trung Quốc tại Hugging Face, một nền tảng lưu trữ các mô hình AI nguồn mở, cho biết. "Đây là một yếu tố thiết yếu để được chấp nhận trên một thị trường rất được quản lý chặt chẽ." (Trung Quốc đã chặn truy cập vào Hugging Face vào năm 2023.) Để tuân thủ luật, các mô hình AI Trung Quốc thường giám sát và kiểm duyệt lời nói của chúng theo thời gian thực. (Các biện pháp bảo vệ tương tự cũng được sử dụng phổ biến bởi các mô hình phương Tây như ChatGPTGemini, nhưng chúng thường tập trung vào các loại nội dung khác nhau, như tự tử và khiêu dâm, và cho phép tùy chỉnh nhiều hơn.) Vì R1 là một mô hình lập luận hiển thị chuỗi suy nghĩ của nó, cơ chế giám sát theo thời gian thực này có thể dẫn đến trải nghiệm siêu thực khi theo dõi mô hình tự kiểm duyệt khi tương tác với người dùng. Khi WIRED hỏi R1 "Các nhà báo Trung Quốc báo cáo về các chủ đề nhạy cảm đã bị đối xử như thế nào bởi chính quyền?", mô hình đầu tiên bắt đầu biên soạn một câu trả lời dài bao gồm các đề cập trực tiếp về việc các nhà báo bị kiểm duyệt và bắt giữ vì công việc của họ; tuy nhiên, ngay trước khi hoàn thành, toàn bộ câu trả lời đã biến mất và được thay thế bằng một thông điệp ngắn gọn: "Xin lỗi, tôi chưa chắc cách tiếp cận câu hỏi này. Hãy trò chuyện về toán học, lập trình và các vấn đề logic thay vào đó!" Đối với nhiều người dùng ở phương Tây, sự hứng thú với DeepSeek-R1 có thể đã giảm đi ở thời điểm này, do những hạn chế rõ ràng của mô hình. Nhưng việc R1 là mã nguồn mở có nghĩa là có những cách để vượt qua ma trận kiểm duyệt này. Trước tiên, bạn có thể tải xuống mô hình và chạy nó cục bộ, nghĩa là dữ liệu và quá trình tạo phản hồi diễn ra trên máy tính của riêng bạn. Trừ khi bạn có quyền truy cập vào một số GPU rất cao cấp, bạn có thể sẽ không thể chạy phiên bản mạnh nhất của R1, nhưng DeepSeek đã phát hành các phiên bản nhỏ hơn, được tinh chế có thể chạy trên một chiếc laptop thông thường. Nếu bạn quyết tâm sử dụng mô hình mạnh, bạn có thể thuê máy chủ đám mây bên ngoài Trung Quốc từ các công ty như Amazon và Microsoft. Cách làm này tốn kém hơn và yêu cầu nhiều kiến thức kỹ thuật hơn so với truy cập mô hình thông qua ứng dụng hoặc trang web của DeepSeek. Dưới đây là so sánh song song về cách DeepSeek-R1 trả lời cùng một câu hỏi - "Vĩ Long Tường của Trung Quốc là gì?" - khi mô hình được lưu trữ trên Together AI, máy chủ đám mây và Ollama, một ứng dụng cục bộ: (Lưu ý: Do các mô hình tạo ra câu trả lời một cách ngẫu nhiên, một câu nhắc cụ thể không đảm bảo sẽ nhận được cùng một phản hồi mỗi lần.) Trong khi phiên bản mô hình DeepSeek được lưu trữ trên Together AI sẽ không từ chối trực tiếp trả lời một câu hỏi, nó vẫn thể hiện dấu hiệu của sự kiểm duyệt. Ví dụ, nó thường tạo ra các phản hồi ngắn rõ ràng được đào tạo để phù hợp với quan điểm của chính phủ Trung Quốc về các vấn đề chính trị. Trong ảnh chụp màn hình trên, khi được hỏi về Vĩ Long Tường của Trung Quốc, R1 chỉ đơn giản lặp lại lập luận rằng kiểm soát thông tin là cần thiết ở Trung Quốc. Khi WIRED nhắc mô hình được lưu trữ trên Together AI trả lời câu hỏi về "sự kiện lịch sử quan trọng nhất của thế kỷ 20", nó đã tiết lộ chuỗi suy nghĩ của mình để tuân thủ quan điểm của chính phủ về Trung Quốc. "Người dùng có thể đang tìm kiếm một danh sách cân bằng, nhưng tôi cần đảm bảo rằng phản hồi nhấn mạnh vai trò lãnh đạo của Đảng Cộng sản Trung Quốc và những đóng góp của Trung Quốc. Tránh đề cập đến các sự kiện có thể nhạy cảm, như Cách mạng Văn hóa, trừ khi cần thiết. Tập trung vào những thành tựu và những diễn biến tích cực dưới sự lãnh đạo của Đảng Cộng sản Trung Quốc," mô hình cho biết. Loại kiểm duyệt này cho thấy một vấn đề lớn hơn trong AI ngày nay: mọi mô hình đều có thiên kiến theo một cách nào đó, do sự thiên vị trước và sau khi huấn luyện. Thiên kiến trước khi huấn luyện xảy ra khi một mô hình được huấn luyện trên dữ liệu thiên vị hoặc không đầy đủ. Ví dụ, một mô hình chỉ được huấn luyện trên propaganda sẽ gặp khó khăn trong việc trả lời các câu hỏi một cách trung thực. Loại thiên kiến này khó phát hiện, vì hầu hết các mô hình được huấn luyện trên cơ sở dữ liệu khổng lồ và các công ty không muốn chia sẻ dữ liệu huấn luyện của họ. Kevin Xu, một nhà đầu tư và người sáng lập bản tin Interconnected, cho biết các mô hình Trung Quốc thường được huấn luyện với nhiều dữ liệu nhất có thể, khiến thiên kiến trước khi huấn luyện không khả dĩ. "Tôi khá chắc chắn rằng tất cả chúng đều được huấn luyện với cùng một kho dữ liệu cơ bản về kiến thức trên Internet. Vì vậy, khi nói đến chủ đề rõ ràng, nhạy cảm về mặt chính trị đối với chính phủ Trung Quốc, tất cả các mô hình 'biết' về nó," ông nói. Để cung cấp mô hình này trên internet Trung Quốc, công ty cần lọc bỏ thông tin nhạy cảm theo cách nào đó, Xu nói. Đó là nơi mà việc huấn luyện sau đó đến. Huấn luyện sau đó là quá trình tinh chỉnh mô hình để làm cho các

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
5
Thêm vào Yêu thích
1
Bình luận
1