Tác giả: Tư Nguyên,Kiến thức công nghệ mới

Nguồn ảnh: Được tạo bởi AI vô biên
Trong kỷ nguyên AI, thông tin do người dùng nhập không chỉ còn là riêng tư cá nhân, mà còn trở thành "bệ đỡ" để các mô hình lớn tiến bộ.
"Giúp tôi làm một bản trình chiếu PowerPoint", "Giúp tôi làm một poster Tết mới", "Giúp tôi tóm tắt nội dung tài liệu", sau khi các mô hình lớn trở nên phổ biến, sử dụng công cụ AI để tăng hiệu quả đã trở thành thói quen hàng ngày của những người làm văn phòng, thậm chí nhiều người bắt đầu sử dụng AI để gọi đồ ăn, đặt khách sạn.
Tuy nhiên, cách thức thu thập và sử dụng dữ liệu này cũng mang lại những rủi ro lớn về quyền riêng tư. Nhiều người dùng bỏ qua một vấn đề chính yếu của kỷ nguyên số hóa, đó là thiếu tính minh bạch khi sử dụng các công nghệ, công cụ số hóa, họ không rõ dữ liệu của họ được thu thập, xử lý và lưu trữ như thế nào, không chắc chắn liệu dữ liệu có bị lạm dụng hoặc rò rỉ hay không.
Vào tháng 3 năm nay, OpenAI thừa nhận ChatGPT có lỗ hổng, dẫn đến việc lịch sử trò chuyện của một số người dùng bị rò rỉ. Sự kiện này đã gây ra lo ngại của công chúng về bảo mật dữ liệu và bảo vệ quyền riêng tư cá nhân đối với các mô hình lớn. Ngoài vụ rò rỉ dữ liệu ChatGPT, các mô hình AI của Meta cũng gây tranh cãi vì vi phạm bản quyền.
Tương tự, ở Trung Quốc cũng xảy ra các sự kiện tương tự. Gần đây, Iqiyi và một trong "Sáu Hổ Nhỏ" của mô hình lớn, Siyu Technology (MiniMax), đã gây chú ý do tranh chấp bản quyền. Iqiyi cáo buộc Hải Loa AI đã sử dụng tài liệu có bản quyền của họ để huấn luyện mô hình mà không được phép, đây là vụ kiện đầu tiên ở Trung Quốc về vi phạm bản quyền của nền tảng video đối với mô hình video lớn.
Những sự kiện này đã thu hút sự chú ý của công chúng về nguồn gốc dữ liệu huấn luyện và vấn đề bản quyền của các mô hình lớn, cho thấy sự phát triển của công nghệ AI cần được xây dựng trên nền tảng bảo vệ quyền riêng tư của người dùng.
Để hiểu rõ hơn về tính minh bạch thông tin của các mô hình lớn trong nước hiện nay, "Kiến thức công nghệ mới" đã chọn 7 sản phẩm mô hình lớn chủ lực trên thị trường là Đậu Bao, Văn Tâm Nhất Ngôn, Kimi, Tencent Hỗn Nguyên, Tinh Hỏa Đại Mô Hình, Thông Nghĩa Thiên Văn và Kuaishou Khả Linh, thông qua đánh giá chính sách quyền riêng tư và thỏa thuận người dùng, trải nghiệm thiết kế tính năng sản phẩm, và nhận thấy nhiều sản phẩm không thực hiện tốt ở khía cạnh này, chúng tôi cũng rõ ràng thấy mối quan hệ nhạy cảm giữa dữ liệu người dùng và sản phẩm AI.
01. Quyền thu hồi chỉ là hình thức
Trước tiên, "Kiến thức công nghệ mới" có thể thấy rõ ràng từ trang đăng nhập rằng 7 sản phẩm mô hình lớn trong nước đều kế thừa "tiêu chuẩn" của các ứng dụng Internet, với các thỏa thuận sử dụng và chính sách quyền riêng tư, và đều có các chương khác nhau trong chính sách quyền riêng tư để giải thích cho người dùng cách thu thập và sử dụng thông tin cá nhân.
Tuyên bố của các sản phẩm này cũng khá giống nhau, "Để tối ưu hóa và cải thiện trải nghiệm dịch vụ, chúng tôi có thể kết hợp phản hồi của người dùng về nội dung đầu ra và các vấn đề gặp phải trong quá trình sử dụng để cải thiện dịch vụ. Với điều kiện được mã hóa an toàn và xóa nhận dạng nghiêm ngặt, chúng tôi có thể phân tích dữ liệu đầu vào của người dùng, lệnh do người dùng đưa ra và phản hồi do AI tạo ra, cũng như tình hình truy cập và sử dụng sản phẩm của người dùng, để sử dụng cho việc huấn luyện mô hình."
Thực tế, việc sử dụng dữ liệu người dùng để huấn luyện sản phẩm, sau đó cung cấp sản phẩm tốt hơn cho người dùng sử dụng, dường như là một chu trình tích cực, nhưng vấn đề mà người dùng quan tâm là liệu họ có quyền từ chối hoặc thu hồi việc "cung cấp" dữ liệu đó cho việc huấn luyện AI hay không.
Sau khi xem xét và kiểm tra 7 sản phẩm AI này, "Kiến thức công nghệ mới" nhận thấy chỉ có Đậu Bao, iFLYTEK, Thông Nghĩa Thiên Văn và Khả Linh có đề cập trong điều khoản quyền riêng tư rằng người dùng có thể "thay đổi phạm vi ủy quyền cho sản phẩm tiếp tục thu thập thông tin cá nhân hoặc thu hồi ủy quyền".
Trong đó, Đậu Bao chủ yếu tập trung vào việc thu hồi ủy quyền thông tin giọng nói. Chính sách cho biết, "Nếu bạn không muốn thông tin giọng nói do bạn nhập hoặc cung cấp được sử dụng để huấn luyện và cải thiện mô hình, bạn có thể tắt 'Cài đặt' - 'Cài đặt tài khoản' - 'Cải thiện dịch vụ giọng nói' để thu hồi ủy quyền của bạn"; tuy nhiên, đối với các thông tin khác, cần liên hệ với kênh công khai của nhà chức trách để yêu cầu thu hồi việc sử dụng dữ liệu cho việc huấn luyện và cải thiện mô hình.

Nguồn/(Đậu Bao)
Trong quá trình vận hành thực tế, việc tắt ủy quyền dịch vụ giọng nói không quá khó, nhưng đối với việc thu hồi sử dụng các thông tin khác, "Kiến thức công nghệ mới" sau khi liên hệ với Đậu Bao vẫn chưa nhận được phản hồi.

Nguồn/(Đậu Bao)
Thông Nghĩa Thiên Văn cũng tương tự như Đậu Bao, người dùng chỉ có thể tự thao tác để thu hồi ủy quyền dịch vụ giọng nói, còn đối với các thông tin khác, cũng cần liên hệ với kênh công khai của nhà chức trách để thay đổi hoặc thu hồi ủy quyền thu thập và xử lý thông tin cá nhân.

Nguồn/(Thông Nghĩa Thiên Văn)
Khả Linh, là nền tảng tạo video và hình ảnh, đã có tuyên bố rõ ràng về việc sử dụng khuôn mặt, cho biết sẽ không sử dụng thông tin điểm ảnh khuôn mặt của bạn cho bất kỳ mục đích nào khác hoặc chia sẻ với bên thứ ba. Nhưng nếu muốn hủy ủy quyền, thì cần gửi email liên hệ với nhà chức trách để hủy.

Nguồn/(Khả Linh)
So với Đậu Bao, Thông Nghĩa Thiên Văn và Khả Linh, yêu cầu của iFLYTEK Tinh Hỏa lại khắt khe hơn, theo các điều khoản, nếu người dùng muốn thay đổi hoặc thu hồi phạm vi thu thập thông tin cá nhân, thì cần thực hiện bằng cách hủy tài khoản.

Nguồn/(iFLYTEK Tinh Hỏa)
Đáng chú ý là, mặc dù Tencent Hỗn Nguyên không đề cập trong điều khoản về cách thay đổi ủy quyền thông tin, nhưng trong ứng dụng chúng tôi có thể thấy tính năng "Chương trình cải thiện dịch vụ giọng nói".

Nguồn/(Tencent Hỗn Nguyên)
Còn Kimi tuy có đề cập trong chính sách quyền riêng tư rằng có thể thu hồi chia sẻ thông tin giọng nói với bên thứ ba, và có thể thực hiện tương ứng trong ứng dụng, nhưng "Kiến thức công nghệ mới" sau khi thử nghiệm lâu vẫn không tìm thấy lối vào tương ứng. Còn đối với các thông tin dạng văn bản khác, cũng không tìm thấy các điều khoản tương ứng.

Nguồn/(Chính sách quyền riêng tư của Kimi)
Trên thực tế, từ một số ứng dụng mô hình lớn chủ lực, chúng ta có thể thấy
Trong kỷ nguyên mạng xã hội trực tuyến, việc thu thập dữ liệu được quản lý chặt chẽ đã trở thành một điều bình thường trong kỷ nguyên AI. Thông tin do người dùng cung cấp đã được các nhà sản xuất mô hình lớn thu thập một cách tùy ý với lý do "huấn luyện tài liệu", dữ liệu người dùng không còn được coi là quyền riêng tư cần được bảo vệ nghiêm ngặt mà là "bệ phóng" để mô hình tiến bộ.
Ngoài dữ liệu người dùng, tính minh bạch của tài liệu huấn luyện cũng rất quan trọng đối với việc thử nghiệm mô hình lớn, liệu những tài liệu này có hợp lý và hợp pháp, có vi phạm bản quyền hay không, và liệu có tiềm ẩn rủi ro nào đối với người dùng. Chúng tôi đã tiến hành khảo sát và đánh giá sâu 7 sản phẩm mô hình lớn này, và kết quả thật đáng kinh ngạc.
02、Nguy cơ "nuôi dưỡng" tài liệu huấn luyện
Ngoài tỷ lệ băm, tài liệu huấn luyện chất lượng cao là yếu tố quan trọng hơn đối với việc huấn luyện mô hình lớn, tuy nhiên những tài liệu này thường bao gồm các tác phẩm được bảo vệ bản quyền như văn bản, hình ảnh, video, v.v., việc sử dụng mà không được phép sẽ rõ ràng là vi phạm bản quyền.
Sau khi kiểm tra, 「Công nghệ mới」 phát hiện rằng trong các thỏa thuận của 7 sản phẩm mô hình lớn, không có đề cập đến nguồn gốc cụ thể của dữ liệu huấn luyện mô hình, và cũng không công khai dữ liệu bản quyền.

Lý do mà mọi người đều rất thống nhất không công khai tài liệu huấn luyện cũng rất đơn giản, một mặt là do sử dụng dữ liệu không đúng cách rất dễ dẫn đến tranh chấp bản quyền, và liệu việc các công ty AI sử dụng sản phẩm có bản quyền làm tài liệu huấn luyện có hợp pháp hay không thì hiện vẫn chưa có quy định cụ thể; mặt khác, điều này cũng có thể liên quan đến sự cạnh tranh giữa các doanh nghiệp, khi công khai tài liệu huấn luyện sẽ như công ty sản xuất thực phẩm tiết lộ nguyên liệu cho đối thủ, đối thủ có thể nhanh chóng sao chép và nâng cao chất lượng sản phẩm.
Đáng chú ý là, chính sách của hầu hết các mô hình đều đề cập rằng, thông tin thu được từ tương tác giữa người dùng và mô hình lớn sẽ được sử dụng để tối ưu hóa mô hình và dịch vụ, nghiên cứu liên quan, quảng bá và tiếp thị thương hiệu, marketing, nghiên cứu người dùng, v.v.
Thành thật mà nói, do chất lượng dữ liệu người dùng không đồng đều, độ sâu của các tình huống không đủ, và hiệu quả biên giảm, dữ liệu người dùng rất khó nâng cao khả năng của mô hình, thậm chí còn có thể dẫn đến chi phí làm sạch dữ liệu bổ sung. Tuy nhiên, giá trị của dữ liệu người dùng vẫn tồn tại. Nó không còn là yếu tố then chốt để nâng cao khả năng của mô hình, mà là một kênh mới để doanh nghiệp thu lợi nhuận. Thông qua phân tích cuộc đối thoại của người dùng, doanh nghiệp có thể hiểu hành vi của người dùng, phát hiện các kịch bản có thể thu lợi, và tùy chỉnh các tính năng thương mại, thậm chí chia sẻ thông tin với các nhà quảng cáo. Và tất cả những điều này đều phù hợp với các quy tắc sử dụng sản phẩm mô hình lớn.
Tuy nhiên, cũng cần lưu ý rằng, dữ liệu được tạo ra trong quá trình xử lý thời gian thực sẽ được tải lên đám mây để xử lý, và cũng sẽ được lưu trữ trên đám mây, mặc dù hầu hết các mô hình lớn trong chính sách riêng tư đều đề cập đến việc sử dụng các biện pháp mã hóa, ẩn danh hóa và các biện pháp khả thi khác để bảo vệ thông tin cá nhân, nhưng hiệu quả thực tế của những biện pháp này vẫn đáng lo ngại.
Ví dụ, nếu nội dung do người dùng nhập được sử dụng làm tập dữ liệu, sau một thời gian khi người khác hỏi mô hình về nội dung liên quan, có thể sẽ dẫn đến rủi ro rò rỉ thông tin; ngoài ra, nếu đám mây hoặc sản phẩm bị tấn công, liệu có thể vẫn có thể khôi phục lại thông tin gốc thông qua kỹ thuật liên kết hoặc phân tích, đây cũng là một điểm yếu tiềm ẩn.
Ủy ban Bảo vệ Dữ liệu Châu Âu (EDPB) vừa đưa ra hướng dẫn về bảo vệ dữ liệu cá nhân trong xử lý mô hình AI. Ý kiến này nêu rõ rằng, tính ẩn danh của mô hình AI không phải chỉ bằng một tuyên bố, mà phải trải qua kiểm tra kỹ thuật nghiêm ngặt và các biện pháp giám sát không ngừng để đảm bảo. Ngoài ra, ý kiến cũng nhấn mạnh rằng, các doanh nghiệp không chỉ phải chứng minh tính cần thiết của hoạt động xử lý dữ liệu, mà còn phải chứng minh rằng họ đã áp dụng các phương pháp gây ảnh hưởng tối thiểu đến quyền riêng tư của cá nhân trong quá trình xử lý.

Do đó, khi các công ty mô hình lớn thu thập dữ liệu "để nâng cao hiệu suất của mô hình", chúng ta cần cẩn trọng suy nghĩ xem đây có phải là điều kiện cần thiết cho sự tiến bộ của mô hình, hay chỉ là việc các doanh nghiệp lạm dụng dữ liệu của người dùng vì mục đích thương mại.
03、Vùng mờ của an toàn dữ liệu
Ngoài ứng dụng mô hình lớn thông thường, rủi ro rò rỉ thông tin cá nhân do ứng dụng trí tuệ nhân tạo tại thiết bị cuối càng phức tạp hơn.
So với các công cụ AI như trợ lý trò chuyện, khi sử dụng trí tuệ nhân tạo tại thiết bị cuối, các thông tin cá nhân cần thu thập sẽ chi tiết hơn và có giá trị hơn. Trước đây, thông tin chủ yếu thu thập từ điện thoại di động bao gồm thông tin về thiết bị và ứng dụng của người dùng, thông tin nhật ký, thông tin về quyền cơ bản, v.v.; trong các kịch bản trí tuệ nhân tạo tại thiết bị cuối và hiện tại chủ yếu dựa trên công nghệ đọc màn hình và ghi màn hình, ngoài toàn bộ quyền truy cập thông tin nêu trên, các trợ lý thông minh tại thiết bị cuối còn có thể truy cập vào chính nội dung được hiển thị, và tiếp tục phân tích mô hình để thu thập các thông tin nhạy cảm như danh tính, vị trí, thanh toán, v.v.
Ví dụ, trong buổi giới thiệu sản phẩm gần đây, Honor đã trình diễn kịch bản gọi món ăn, trong đó vị trí, thanh toán, sở thích, v.v. của người dùng đều bị AI ứng dụng lặng lẽ đọc và ghi lại, làm tăng nguy cơ rò rỉ thông tin cá nhân.

Như "Viện Nghiên cứu Tencent" trước đây đã phân tích, trong hệ sinh thái internet di động, các ứng dụng cung cấp dịch vụ trực tiếp cho người tiêu dùng thường được coi là những người kiểm soát dữ liệu, và chịu trách nhiệm về bảo vệ quyền riêng tư và an toàn dữ liệu trong các kịch bản như thương mại điện tử, mạng xã hội, giao thông, v.v. Tuy nhiên, khi trí tuệ nhân tạo tại thiết bị cuối hoàn thành nhiệm vụ cụ thể dựa trên khả năng dịch vụ của ứng dụng, ranh giới trách nhiệm về an toàn dữ liệu giữa nhà sản xuất thiết bị và nhà cung cấp dịch vụ ứng dụng trở nên mờ nhạt.
Thường thì nhà sản xuất sẽ lấy việc cung cấp dịch vụ tốt hơn làm lý do, nhưng nếu nhìn vào toàn bộ ngành, điều này không phải là "lý do chính đáng", Apple Intelligence đã明确表示họ không lưu trữ dữ liệu người dùng trên đám mây và áp dụng nhiều biện pháp kỹ thuật để ngăn chặn bất kỳ tổ chức nào, kể cả chính Apple, truy cập dữ liệu người dùng, từ đó giành được sự tin tưởng của người dùng.
Không thể chối cãi, hiện tại các mô hình lớn chủ đạo vẫn còn nhiều vấn đề cần giải quyấp về tính minh bạch. Không kể việc thu hồi dữ liệu người dùng gặp khó khăn, nguồn gốc tài liệu huấn luyện không minh bạch, hay các rủi ro quyền riêng tư phức tạp do trí tuệ nhân tạo tại thiết bị cuối, tất cả đều đang không ngừng xói mòn niềm tin của người dùng đối với các mô hình lớn.

Với tư cách là lực lượng then chốt thúc đẩy quá trình số hóa, việc nâng cao tính minh bạch của mô hình lớn đã trở nên cấp bách. Điều này không chỉ liên quan đến an ninh thông tin cá nhân và bảo vệ quyền riêng tư của người dùng, mà còn là yếu tố then chốt quyết định liệu ngành mô hình lớn có thể phát triển lành mạnh và bền vững hay không.
Trong tương lai, hy vọng các nhà sản xuất mô hình lớn sẽ chủ động phản hồi, tối ưu hóa thiết kế sản phẩm và chính sách riêng tư, với một thái độ mở và minh bạch hơn, gi


