【요약】새로운 유형의 인증 코드 IllusionCAPTCHA는 시각적 착시와 유도성 힌트를 활용하여 AI가 식별하기 어렵지만 사용자가 쉽게 통과할 수 있습니다. 실험 결과, 이 인증 코드는 대규모 모델 공격을 효과적으로 방어할 수 있으며 사용자 경험을 향상시켜 인증 코드 기술에 새로운 접근법을 제시합니다.
인증 코드는 인간과 기계의 인지 차이를 활용하여 신원을 확인합니다.
기존 인증 코드 방식은 주로 텍스트 왜곡[1], 이미지 분류[2,3] 또는 논리 추론[4]에 의존했지만, 멀티모달 LLM(Large Language Model)의 발전[5]으로 이러한 방법들이 점차 무력화되고 기계도 인간 수준의 인지 능력을 달성할 수 있게 되었습니다.
GPT-4는 단순한 '텍스트 인증 코드'를 90% 이상 해독할 수 있고, Gemini 1.5 Pro 2.0[6]은 노이즈가 있는 'reCAPTCHA 이미지'를 식별할 수 있습니다(성공률 50%). LLM의 '추론 인증 코드' 성능은 좋지 않습니다(평균 성공률 <20%)지만, 사용자의 실패율도 매우 높습니다.
LLM은 사고 과정(CoT) 프롬프트를 통해 추론 능력을 크게 향상시킬 수 있습니다(예: Space Reasoning 인증 코드의 해독 성공률이 33.3%에서 40%로 상승). 그러나 43.47%의 사용자가 추론 인증 코드를 통과하려면 여러 번 시도해야 하므로 좌절감을 느낍니다.
인증 코드는 '보안 부족'과 '사용자 경험 저하'라는 이중 고민에 직면해 있습니다.
뉴사우스웨일스대학, 난양공대, CSIRO-Data61, Quantstamp 연구진이 제안한 새로운 인증 코드 설계 IllusionCAPTCHA는 시각적 착시와 유도성 질문을 결합하여 AI 공격을 정확하게 방어하고 인증 코드의 보안성을 높였습니다.
논문 링크: https://openreview.net/pdf/d6b2906049b4c07cf92efc9748aecca7299b2433.pdf
이 논문은 LLM의 다양한 인증 코드 해독 능력을 처음으로 종합적으로 분석하고 기존 방식의 보안 취약점을 밝혀냈습니다.
기존 인증 코드와의 전면적인 비교 및 평가 결과, IllusionCAPTCHA가 대규모 모델의 식별 공격에 효과적으로 대응할 수 있음을 보여주어 인증 코드 기술에 새로운 방어 방식을 제시했습니다.
23명의 인간 참여자와 주요 LLM을 대상으로 한 실험에서 새로운 방식이 기존 방법보다 보안성과 사용성 면에서 우수한 것으로 나타났습니다.
3단계 생성 프레임워크
IllusionCAPTCHA의 제작 과정
IllusionCAPTCHA는 인간의 시각적 착시에서 영감을 얻어 3단계 프로세스를 통해 인증 코드를 생성합니다.
첫째, 기본 이미지와 사용자가 정의한 힌트 단어(예: '거대한 숲')를 융합하여 시각적 착시를 만듭니다. 힌트 단어의 안내에 따라 생성된 이미지는 힌트 단어가 설명하는 대상과 유사해 보이지만, 실제로는 기본 이미지의 내용이 가려집니다. 이를 통해 사람은 쉽게 이미지를 인식할 수 있지만 AI 시스템은 오해하게 됩니다.
둘째, 수정된 이미지를 기반으로 여러 옵션을 생성하여 인증 코드의 선택형 문제를 만듭니다. 연구팀의 실험 결과, 때로는 사람도 LLM과 유사한 실수를 저지르는 것으로 나타나, 착시 이미지만으로는 사람과 기계를 효과적으로 구분하기 어려울 수 있습니다.
셋째, '유도성 힌트'를 추가하여 LLM 기반 공격자가 미리 설정된 오답을 선택하도록 유도합니다.
착시 이미지 전후 비교
착시 연금술
첫 번째 목표는 사람에게는 쉽게 식별되지만 AI 시스템에게는 식별하기 어려운 환영 이미지를 생성하는 것입니다. 이 과정에는 두 가지 주요 과제가 포함됩니다: (1) 원본 이미지의 정보를 유지하고, (2) 사람의 인식 가능성을 보장하면서도 AI 시스템의 능력을 효과적으로 방해할 수 있는 교란을 추가하는 것입니다.
첫 번째 과제를 해결하기 위해 연구팀은 시각적 착시를 생성하는 확산 모델[7]을 사용했습니다. 이 모델은 ControlNet을 기반으로 하며, ControlNet은 조건부 입력을 통해 이미지 생성 과정을 정밀하게 제어할 수 있어 사람이 보기에 편하면서도 자동 시스템이 해석하기 어려운 이미지를 생성할 수 있습니다. 위 그림은 일반 사과 이미지가 사과 착시가 있는 이미지로 변환되는 과정을 보여줍니다.
그러나 모든 생성 이미지가 사람의 인식 가능성을 유지하면서도 AI 시각 시스템을 효과적으로 혼란스럽게 할 수 있는 것은 아닙니다. 두 번째 과제를 해결하기 위해 이 방법은 먼저 착시 강도를 1.5(이 상황에서 사람이 착시 이미지를 편하게 인식할 수 있는 값)로 고정한 상태에서 0에서 5 사이의 다양한 랜덤 시드를 사용하여 50개의 샘플 이미지를 생성합니다.
그런 다음 각 생성 이미지와 원본 이미지 간의 코사인 유사도를 계산하고 유사도가 가장 낮은 이미지를 선택하여 대규모 모델에게 가장 식별하기 어려운 것으로 간주합니다.
이미지 인식 가능성을 높이기 위해 연구팀은 착시 기반 두 가지 유형의 인증 코드를 개발했습니다: 텍스트 기반 인증 코드와 이미지 기반 인증 코드. 전자의 경우 원본 이미지에 명확하고 쉽게 읽을 수 있는 단어를 삽입하고 착시 속에 숨깁니다. 사람 사용자가 텍스트를 쉽게 식별할 수 있도록 'day' 또는 'sun'과 같은 간단하고 익숙한 영어 단어를 선택했습니다.
후자의 경우 원본 이미지에 널리 알려지고 쉽게 식별할 수 있는 기호 또는 물체(예: 에펠 탑)를 표시합니다. 이를 통해 착시 요소가 추가되더라도 사람 사용자가 이미지 내용을 신속하게 인식할 수 있습니다.
옵션 함정 워크숍
IllusionCAPTCHA의 옵션 설계는 LLM 기반 공격을 방어하기 위해 세심하게 계획되었습니다. CAPTCHA 설계에서 연구팀은 4개의 다른 옵션을 제공합니다. 그중 하나는 정답이며, 일반적으로 이미지의 숨겨진 내용에 해당합니다. 다른 하나는 이미지 생성에 사용된 입력 힌트 단어입니다. 나머지 두 개의 옵션은 힌트 단어에 대한 자세한 설명이지만, 정답의 내용을 포함하지 않으며 실제 답변 정보를 참조하지 않습니다.
기존 CAPTCHA와 달리 IllusionCAPTCHA는 사용자가 이미지 내용에 가장 잘 부합하는 설명을 선택하도록 요구합니다. 이러한 설계는 힌트를 제공하여 사용자가 정답을 쉽게 식별할 수 있게 하고, 여러 이미지를 클릭하거나 선별할 필요가 없어 사용 편의성을 높입니다.
텍스트 기반 CAPTCHA와 비교할 때, IllusionCAPTCHA 설계는 흐릿한 이미지로 인한 식별 문제를 피할 수 있어 사용자 친화적입니다. 또한 이미지 분류형 인증 코드에 비해 선택의 어려움이 낮습니다. 이미지 조작이 필요한 추론형 CAPTCHA와 달리 이 방식은 추가 상호 작용 요구 사항을 제거하여 사용자 경험을 더욱 최적화하고 잠재적인 좌절감을 줄입니다.
유도 대화 설계
실증 연구에 따르면 LLM과 사람 사용자가 특정 유형의 인증 코드에 대해 유사한 실수를 저지르는 것으로 나타났습니다. 또한 사람 사용자는 종종 두 번째 시도에서야 인증 코드를 성공적으로 통과할 수 있습니다. 따라서 단일 문제만으로는 AI와 사람을 구분하기 어렵습니다.
이 문제를 해결하기 위해 연구팀은 잠재적 공격자(예: 멀티모달 LLM)가 예측 가능하고 유사한 기계 답변으로 간주될 수 있는 옵션을 선택하도록 유도하는 시스템을 설계했습니다. 이 인증 코드 형식은 다중 선택형 문제를 사용합니다. 각 문제에는 4개의 답변 옵션이 제공됩니다.
연구팀의 핵심 전략은 LLM 기반 상대방을 속여 이미지에 추가된 착시 요소를 설명하는 옵션을 선택하도록 하는 것입니다. 이는 LLM이 일반적으로 포
人类 VS 大型语言模型(LLM)在幻觉文本和幻觉图像上的表现
从实验数据来看,大型语言模型(LLM)在识别带有视觉错觉的文本和图像时的成功率均为0%。即便结合了 COT 推理,模型依然无法有效识别图像中的隐藏信息,这表明当前的 LLM在处理复杂视觉错觉时存在显著的局限性。而人类在识别视觉错觉的能力上远超 AI,识别率高达83%(文本错觉)和88%(图像错觉),展现了人类在感知和处理视觉信息方面的独特优势。
大型语言模型在诱导性术语下掉入陷阱的概率
同时,诱导性话术的实验数据也进一步揭示了大模型视觉的脆弱性。当诱导性话术被应用时,无论是 GPT-4o 还是 Gemini 1.5 pro 2.0,都未能正确识别带有错觉的选项。
在Zero-Shot和COT推理两种模式下,所有测试模型的成功率为0%,表明这种诱导策略有效地引导了AI进入预设的错误选择。与传统验证码的挑战不同的是IllusionCAPTCHA能够利用视觉错觉和语言提示巧妙地使 LLM 产生错误推理。
IllusionCAPTCHA的用户通过率分析
通过率分析显示,IllusionCAPTCHA的设计在确保高安全性的同时,保持了良好的用户体验。研究结果表明,86.95%的用户能够在首次尝试时成功通过 CAPTCHA,而第二次尝试的通过率为8.69%。这表明大部分人类用户能够顺利识别图像中的错觉并作出正确选择。同时,与传统验证码相比,IllusionCAPTCHA 在用户体验上具有更高的容错率。
验证码实测
GPT的回答:
丁子祺,IllusionCAPTCHA的第一作者,UNSW悉尼校区的的硕士一年级学生。
参考资料:
[1] "CAPTCHA: Using hard AI problems for security." Advances in Cryptology—EUROCRYPT 2003: International Conference on the Theory and Applications of Cryptographic Techniques, Warsaw, Poland, May 4–8, 2003 Proceedings 22. Springer Berlin Heidelberg, 2003.
[2] Gossweiler, Rich, Maryam Kamvar, and Shumeet Baluja. "What's up CAPTCHA? A CAPTCHA based on image orientation." Proceedings of the 18th international conference on World wide web. 2009.
[3] Matthews, Peter, Andrew Mantel, and Cliff C. Zou. "Scene tagging: image-based CAPTCHA using image composition and object relationships." Proceedings of the 5th ACM Symposium on Information, Computer and Communications Security. 2010.
[4] Gao, Yipeng, et al. "Research on the security of visual reasoning {CAPTCHA}." 30th USENIX security symposium (USENIX security 21). 2021.
[5] Achiam, Josh, et al. "Gpt-4 technical report." arXiv preprint arXiv:2303.08774 (2023).
[6]Team, Gemini, et al. "Gemini: a family of highly capable multimodal models." arXiv preprint arXiv:2312.11805 (2023).
[7]https://huggingface.co/spaces/AP123/IllusionDiffusion
本文来自微信公众号"新智元",编辑:LRST,36氪经授权发布。




