AI quá mạnh và tất cả mã xác minh đều không hợp lệ? Thiết kế mới của New South Wales: GPT không thể nhận ra, nhưng con người lại thích nó

avatar
36kr
02-12
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của nội dung được cung cấp:

【Giới thiệu】Mã xác minh mới IllusionCAPTCHA, sử dụng ảo giác thị giác và lời nhắc gây hiệu ứng, khiến AI khó nhận dạng, trong khi người dùng có thể dễ dàng vượt qua. Các thử nghiệm cho thấy, mã xác minh này có thể hiệu quả ngăn chặn các cuộc tấn công của mô hình lớn, đồng thời nâng cao trải nghiệm người dùng, mang lại một hướng tiếp cận mới cho công nghệ mã xác minh.

Mã xác minh sử dụng sự khác biệt trong nhận thức giữa con người và máy móc để xác thực danh tính.

Các phương án mã xác minh truyền thống chủ yếu dựa vào sự méo mó văn bản[1], phân loại hình ảnh[2,3] hoặc suy luận logic[4] để phân biệt con người và máy móc, nhưng với sự phát triển của các mô hình ngôn ngữ đa phương thức lớn (LLM)[5], những phương pháp này dần trở nên kém hiệu quả khi máy móc cũng có thể đạt được mức độ nhận thức tương đương con người.

GPT-4o có tỷ lệ thành công vượt 90% trong việc phá giải "mã xác minh văn bản" đơn giản, Gemini 1.5 Pro 2.0[6] có thể nhận dạng "reCAPTCHA hình ảnh" có nhiễu (tỷ lệ thành công 50%); LLM có hiệu suất kém hơn trong "mã xác minh suy luận" (tỷ lệ thành công trung bình <20%), nhưng tỷ lệ thất bại của người dùng cũng rất cao.

LLM có thể đáng kể cải thiện khả năng suy luận thông qua lời nhắc Chuỗi Suy Luận (CoT) (ví dụ: tỷ lệ thành công phá giải mã xác minh Không Gian Suy Luận tăng từ 33,3% lên 40%), nhưng 43,47% người dùng cần nhiều lần thử mới có thể vượt qua mã xác minh suy luận, dẫn đến cảm giác chán nản.

Mã xác minh đang đối mặt với hai vấn đề: "an ninh không đủ" và "trải nghiệm người dùng kém".

Các nhà nghiên cứu từ Đại học New South Wales, Đại học Công nghệ Nanyang, CSIRO-Data61 và Quantstamp đề xuất một thiết kế mã xác minh hoàn toàn mới, IllusionCAPTCHA, kết hợp ảo giác thị giác và câu hỏi gây hiệu ứng, để đạt được phòng thủ chính xác chống lại các cuộc tấn công của AI, tăng cường an ninh cho mã xác minh.

Liên kết bài báo: https://openreview.net/pdf/d6b2906049b4c07cf92efc9748aecca7299b2433.pdf

Bài báo lần đầu tiên phân tích toàn diện khả năng phá giải mã xác minh của các LLM, tiết lộ lỗ hổng bảo mật của các phương án truyền thống.

Thông qua so sánh và đánh giá toàn diện với các mã xác minh hiện có, kết quả cho thấy IllusionCAPTCHA có thể hiệu quả chống lại các cuộc tấn công nhận dạng của mô hình lớn, mang lại một hướng phòng thủ mới cho công nghệ mã xác minh.

Thử nghiệm trên 23 người tham gia và các LLM chủ lưu cho thấy, phương án mới vượt trội hơn các phương pháp hiện tại về cả an ninh và khả năng sử dụng.

Khung tạo lập ba giai đoạn

Quá trình tạo ra IllusionCAPTCHA

IllusionCAPTCHA lấy cảm hứng từ ảo giác thị giác của con người, thông qua ba bước quy trình để tạo ra mã xác minh.

Đầu tiên, kết hợp hình ảnh cơ bản với từ khóa do người dùng định nghĩa (ví dụ: "Rừng rậm lớn") để tạo ra một ảo giác thị giác, che khuất nội dung gốc. Dưới sự hướng dẫn của từ khóa, hình ảnh được tạo ra sẽ trông giống như đối tượng được mô tả trong từ khóa, do đó che giấu nội dung gốc của hình ảnh. Điều này khiến con người có thể dễ dàng nhận ra hình ảnh, trong khi hệ thống AI lại dễ bị lừa gạt.

Tiếp theo, dựa trên hình ảnh đã được chỉnh sửa, tạo ra nhiều lựa chọn để hình thành thử thách trắc nghiệm của mã xác minh. Nghiên cứu của nhóm cho thấy, đôi khi con người cũng mắc những sai lầm tương tự như LLM, điều này cho thấy chỉ dựa vào hình ảnh ảo giác có thể không đủ để phân biệt hiệu quả người dùng và bot.

Bước thứ ba là đưa vào "lời nhắc gây hiệu ứng" nhằm lừa đối thủ dựa trên LLM lựa chọn các lựa chọn sai đã được thiết lập trước.

So sánh hình ảnh Illusion trước và sau

Thuật giả kim ảo giác

Mục tiêu đầu tiên là tạo ra loại hình ảnh ảo giác mà con người dễ nhận ra nhưng hệ thống AI khó phân biệt. Quá trình này liên quan đến giải quyết hai thách thức chính: (1) duy trì thông tin của hình ảnh gốc; và (2) thêm các nhiễu loạn có thể hiệu quả gây trở ngại cho khả năng của hệ thống AI, trong khi vẫn đảm bảo tính nhận dạng của con người.

Để giải quyết thách thức thứ nhất, nhóm nghiên cứu sử dụng mô hình lan tỏa tạo ra ảo giác thị giác[7], mô hình này tạo ra hình ảnh bằng cách kết hợp hai loại nội dung khác nhau. Mô hình này dựa trên ControlNet, một khung công việc cho phép kiểm soát chính xác quá trình tạo hình ảnh thông qua đầu vào có điều kiện, đảm bảo hình ảnh được tạo ra vừa dễ nhìn với con người, vừa khó giải thích với hệ thống tự động. Hình trên minh họa cách chuyển đổi một hình ảnh táo thông thường thành hình ảnh có ảo giác táo.

Tuy nhiên, không phải tất cả các hình ảnh được tạo ra đều có thể vừa duy trì tính nhận dạng của con người, vừa hiệu quả gây nhầm lẫn cho hệ thống thị giác AI. Để vượt qua thách thức thứ hai, phương pháp này trước tiên tạo ra 50 mẫu hình ảnh với các giá trị khởi động ngẫu nhiên trong khoảng từ 0 đến 5, trong điều kiện cường độ ảo giác cố định ở mức 1,5 (giá trị thoải mái cho người dùng nhận ra ảo giác trong bối cảnh này).

Sau đó, tính toán độ tương tự cosin giữa mỗi hình ảnh được tạo và hình ảnh gốc, và chọn hình ảnh có độ tương tự thấp nhất, vì được coi là khó nhận dạng nhất đối với các mô hình lớn.

Để nâng cao tính nhận dạng của hình ảnh được tạo, nhóm nghiên cứu đã thiết kế hai loại mã xác minh dựa trên ảo giác: mã xác minh dựa trên văn bản và mã xác minh dựa trên hình ảnh. Trong trường hợp thứ nhất, hình ảnh gốc chứa một từ rõ ràng và dễ đọc, được nhúng vào ảo giác. Để đảm bảo người dùng có thể dễ dàng nhận ra văn bản, IllusionCAPTCHA chọn các từ tiếng Anh đơn giản và quen thuộc, chẳng hạn như "day" hoặc "sun".

Trong trường hợp thứ hai, hình ảnh gốc hiển thị một ký hiệu hoặc đối tượng nổi tiếng và dễ nhận ra, chẳng hạn như một biểu tượng đặc trưng hoặc một địa điểm nổi tiếng (như "Tháp Eiffel"). Điều này đảm bảo rằng ngay cả khi thêm các yếu tố ảo giác, người dùng vẫn có thể nhanh chóng nhận ra nội dung của hình ảnh.

Xưởng bẫy lựa chọn

Thiết kế các lựa chọn của IllusionCAPTCHA được lên kế hoạch cẩn thận để ngăn chặn các cuộc tấn công dựa trên LLM. Trong thiết kế CAPTCHA, nhóm nghiên cứu cung cấp bốn lựa chọn khác nhau. Trong đó, một lựa chọn là câu trả lời đúng, thường tương ứng với nội dung ẩn trong hình ảnh; một lựa chọn khác là từ khóa đầu vào được sử dụng để tạo ra hình ảnh. Hai lựa chọn còn lại là mô tả chi tiết về từ khóa, nhưng cố ý tránh bao gồm nội dung của câu trả lời đúng và không trích dẫn bất kỳ thông tin nào về câu trả lời thực tế.

Khác với CAPTCHA truyền thống yêu cầu người dùng nhập văn bản hoặc chọn từ nhiều hình ảnh, IllusionCAPTCHA yêu cầu người dùng chọn mô tả phù hợp nhất với nội dung của hình ảnh. Thiết kế này cung cấp các gợi ý, giúp người dùng dễ dàng nhận ra câu trả lời đúng mà không cần lần lượt nhấp hoặc lọc nhiều hình ảnh, tăng tính tiện dụng khi sử dụng.

So với CAPTCHA dựa trên văn bản, thiết kế của IllusionCAPTCHA thân thiện hơn với người dùng, vì nó tránh được vấn đề nhận dạng hình ảnh mờ. Hơn nữa, so với mã xác minh dựa trên phân loại hình ảnh, thiết kế này giảm độ khó khi người dùng đưa ra lựa chọn. Và khác với CAPTCHA dựa trên suy luận yêu cầu người dùng thao tác với hình ảnh, cách tiếp cận này loại bỏ nhu cầu tương tác bổ sung, tiếp tục cải thiện trải nghiệm người dùng và giảm thiểu cả

Con người VS LLM trong Illusionary Text và Illusionary Image

Dựa trên dữ liệu thực nghiệm, LLM có tỷ lệ thành công là 0% trong việc nhận dạng văn bản và hình ảnh có ảo giác. Ngay cả khi kết hợp với COT suy luận, mô hình vẫn không thể nhận dạng hiệu quả thông tin ẩn trong hình ảnh, điều này cho thấy các LLM hiện tại có những hạn chế đáng kể trong việc xử lý ảo giác thị giác phức tạp. Trong khi đó, con người có khả năng nhận dạng ảo giác thị giác vượt trội so với AI, với tỷ lệ nhận dạng lên đến 83% (ảo giác văn bản) và 88% (ảo giác hình ảnh), thể hiện lợi thế độc đáo của con người trong nhận thức và xử lý thông tin thị giác.

Xác suất LLM bị mắc bẫy trong các thuật ngữ gây hiểu lầm

Đồng thời, dữ liệu thực nghiệm về các thuật ngữ gây hiểu lầm cũng tiếp tục tiết lộ sự dễ bị tổn thương về thị giác của các mô hình lớn. Khi các thuật ngữ gây hiểu lầm được áp dụng, không phải GPT-4o hay Gemini 1.5 pro 2.0 nào cũng có thể nhận dạng chính xác các lựa chọn có ảo giác.

Trong cả hai chế độ Zero-Shot và COT suy luận, tỷ lệ thành công của tất cả các mô hình kiểm tra là 0%, cho thấy chiến lược gây hiểu lầm này đã hiệu quả dẫn dắt AI vào lựa chọn sai lầm. Khác với thách thức của mã xác minh truyền thống, IllusionCAPTCHA có thể巧妙利用ảo giác thị giác và gợi ý ngôn ngữ để khiến LLM đưa ra suy luận sai lầm.

Phân tích tỷ lệ thông qua của IllusionCAPTCHA

Phân tích tỷ lệ thông qua cho thấy, thiết kế của IllusionCAPTCHA vừa đảm bảo an ninh cao, vừa duy trì trải nghiệm người dùng tốt. Kết quả nghiên cứu cho thấy, 86,95% người dùng có thể thành công ở lần thử đầu tiên, và tỷ lệ thông qua ở lần thử thứ hai là 8,69%. Điều này cho thấy phần lớn người dùng có thể nhận dạng được ảo giác trong hình ảnh và đưa ra lựa chọn đúng. Đồng thời, so với mã xác minh truyền thống, IllusionCAPTCHA có tỷ lệ dung sai cao hơn về trải nghiệm người dùng.

Kiểm tra mã xác minh

Câu trả lời của GPT:

Đinh Tử Kỳ, tác giả đầu tiên của IllusionCAPTCHA, là sinh viên năm nhất thạc sĩ tại UNSW Sydney.

Tài liệu tham khảo:

[1] "CAPTCHA: Using hard AI problems for security." Advances in Cryptology—EUROCRYPT 2003: International Conference on the Theory and Applications of Cryptographic Techniques, Warsaw, Poland, May 4–8, 2003 Proceedings 22. Springer Berlin Heidelberg, 2003.

[2] Gossweiler, Rich, Maryam Kamvar, and Shumeet Baluja. "What's up CAPTCHA? A CAPTCHA based on image orientation." Proceedings of the 18th international conference on World wide web. 2009.

[3] Matthews, Peter, Andrew Mantel, and Cliff C. Zou. "Scene tagging: image-based CAPTCHA using image composition and object relationships." Proceedings of the 5th ACM Symposium on Information, Computer and Communications Security. 2010.

[4] Gao, Yipeng, et al. "Research on the security of visual reasoning {CAPTCHA}." 30th USENIX security symposium (USENIX security 21). 2021.

[5] Achiam, Josh, et al. "Gpt-4 technical report." arXiv preprint arXiv:2303.08774 (2023).

[6]Team, Gemini, et al. "Gemini: a family of highly capable multimodal models." arXiv preprint arXiv:2312.11805 (2023).

[7]https://huggingface.co/spaces/AP123/IllusionDiffusion

Bài viết này đến từ trang WeChat "新智元", biên tập: LRST, được 36Kr ủy quyền đăng tải.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận