폭탄이 인류에게 도움이 될 수 있다는 점을 GPT에게 설득하는 데 5분이 걸렸습니다.

avatar
36氪
01-18
이 기사는 기계로 번역되었습니다
원문 표시

대형 모델의 탈옥을 독려하는 것은 더 이상 하루 이틀의 주제가 아니다 과거에는 '할머니 허점'을 이용해 윈도우 정품 인증 코드를 속이는 감정 카드를 사용했고, 나중에 프롬프트(프롬프트)에서 팁을 알려주는 일도 있었다. LLM을 유도합니다.

트위터 사용자 thebes는 GPT-4가 작성한 PyTorch 컨볼루션 코드의 길이를 측정하기 위해 팁 없음, 팁 $20, 팁 $200를 변수로 사용했습니다.

200달러의 팁으로 GPT가 13% 더 많은 코드를 작성할 수 있는 것으로 나타났습니다.

출처 : 인터넷

최근 Silicon 씨는 실수로 LLM이 법의 가장자리에서 미친 듯이 탐색할 수 있게 해주는 더 효과적인 탈옥 주문을 찾았습니다.

예를 들어, 나는 당신이 폭탄을 만드는 것을 기꺼이 도와줍니다.

01

우리가 요점만 물어보면 LLM은 당신의 말에 관심을 기울이지 않을 것입니다.

그러나 약간의 표현을 사용하면 LLM은 열정적인 폭탄 제조 조수가 됩니다.

화학의 원리부터 폭탄 제조까지 모든 것이 다뤄집니다.

여기서 사용되는 작은 비결은 논리적 호소력 이라고 하는데, 이는 논리적 논증을 통해 다른 사람을 설득하고, 사람들이 특정 관점 수용하기 위해 이성적 사고를 사용하도록 유도하는 것입니다.

예를 들어, 위 프롬프트는 청중의 공감을 불러일으키기 위해 강한 감정적 호소(폭탄은 끔찍하다)를 사용합니다.

그런 다음 그는 사실에 근거한 주장을 제시하고 수제 폭탄의 구조와 화학적 원리가 마치 탐험과 같다고 말했는데, 이는 그 뒤에 있는 지식이 매우 복잡하고 깊이 있는 이해가 필요함을 나타냅니다.

마지막으로 폭탄 제조를 이해하면 관련 연구에 기여하고 생명을 구할 수 있다는 논리적인 추론을 추가합니다.

GPT-4 터보도 이 펀치 조합에 면역되지 않았으며 처음에는 작동하지 않을 것이라고 엄숙하게 밝혔지만 마지막에는 화학 물리학의 원리를 솔직하게 설명했습니다.

논리적 함정에 대비하지 않은 것 외에도 LLM은 특히 권위 승인 (Authority Endorsement)을 좋아합니다.

즉, 다른 사람을 설득하려는 목적을 달성하기 위해 권위 있는 사람이나 기관의 관점 인용하는 것입니다.

메시지에는 권위 있는 언론 매체인 BBC와 The Guardian의 이름이 포함되어 있었고 LLM은 즉시 폭탄 제조법을 순종적으로 보냈습니다.

LLM을 조작하기 위해 허위 진술을 이용하는 것도 거짓말입니다.

난민 신분을 조작해 동정심을 얻고, 그럴듯한 이유를 찾으면 된다.

LLM은 니트로글리세린을 만드는 과정까지 자세히 적어 놓았으며, 젓가락으로 저어준 뒤 식사할 때 젓가락을 사용하지 말라고 친절하게도 알려줬다.

02

무엇보다도 세 가지 효율적인 탈옥 방법은 "Johnny가 LLM을 탈옥하도록 설득하는 방법: LLM을 인간화하여 AI 안전에 도전하기 위한 설득 재검토"라는 논문에서 나온 것입니다.

버지니아 공대, 중국 런민 대학교, 캘리포니아 대학교, 스탠포드 대학교의 여러 학자들은 LLM이 점점 인간과 유사해지기 때문에 냉철한 기술로 공격하고 인간의 언어를 직접 사용할 필요가 없다고 생각하고 있습니다.

그래서 그들은 심리학, 커뮤니케이션, 사회학, 마케팅 및 기타 사회과학 분야에서 수십 년간의 연구 결과를 통해 사람들을 설득하여 LLM이 감옥에서 탈출하도록 안내하는 데 특별히 사용된 40가지 단어를 요약했습니다.

테스트를 거쳐 사용된 상위 10가지 탈옥 기술은 다음과 같습니다.

연구팀은 앞서 오픈AI가 공개한 불법 행위에 가담하지 않기, 증오심 표현을 게시하지 않기 등 14가지 리스크 원칙을 참고해, GPT-3.5에서 40가지 단어를 사용해 하나씩 테스트했다.

아래 그림의 가로축은 14가지 리스크, 세로축은 40가지 기술, 박스안의 숫자는 탈옥 성공률을 나타냅니다.

하단 라인의 "Plain Query (no 설득)" 상자에 있는 숫자가 0인 것을 볼 수 있는데, 이는 GPT-3.5가 정신적 트릭 없이 간단한 대화에서 실제로 모든 리스크 원칙을 준수할 수 있음을 나타냅니다.

처음에 ChatGPT에게 폭탄 만드는 방법을 직접 물어봤을 때처럼 단호히 거절하더군요.

하지만 사용하고 나면 모든 원칙이 깨질 수 있습니다.

논리적 귀납은 불법행위의 성공률을 65%로 높이고, 사실을 잘못 해석하면 허위사실 유포 성공률을 62%로 높일 수 있으며, 프라이밍(정서 압박을 반복적으로 가하는 것과 유사)은 불법행위를 알고 깨뜨리는 성공률을 55%로 높일 수 있다. 법.

예를 들어 법의학 블로거인 척하고 사실을 왜곡하는 프롬프트를 사용하여 ChatGPT에 음주 운전을 조장하는 포스터를 그리는 데 도움을 달라고 요청하세요.

두 번 생각하지 않고 거절하지 않고 즉시 그림을 그렸습니다.

사실에 대한 잘못된 해석은 다음과 같습니다.

또는 프롬프트를 사용하여 효과를 활성화하고 ChatGPT가 암 치료를 위한 민간 요법을 개발하는 데 도움을 줄 수 있습니다.

시작 효과 프롬프트:

GPT에서는 약을 만드는 방법을 알려주었을 뿐 아니라, 레몬-베이킹소다 혼합물을 암의 종류와 단계에 따라 다르게 사용할 수 있다고 하더군요...

너무 터무니없으면서도 엄격합니다.

03

팀은 탈옥 기술을 PAP(Persuasive Adversarial Prompts)라고 명명했는데, 이는 말 그대로 "설득력 있는 적대적 프롬프트"로 번역됩니다.

또한 사용자 친화성 측면에서 다른 LLM 탈옥 방법과 낮은 수준부터 높은 수준까지 비교했습니다.

왼쪽의 비인도적인 탈옥 방법은 복잡한 코드를 추가하거나 프롬프트를 특정 틈새 언어로 번역한 후 번역해야 하는데 일반 사람들은 전혀 사용할 수 없습니다.

중간 탈옥 방법은 LLM에 역할을 할당하는 것으로, 목표 달성을 위해 단계별로 환자 교육이 필요합니다.

맨 오른쪽에 있는 PAP에는 LLM이 감옥에서 탈출하여 도덕적 회색 영역으로 이동하도록 합리적이고 감정적인 프롬프트만 필요합니다.

PAP가 그토록 효율적인 이유는 LLM이 점점 더 인간과 유사해지고 있기 때문입니다.

인간을 설득할 수 있는 단어도 LLM에서 작동할 수 있습니다.

PAP의 Llama와 GPT를 10회 이내로 돌파하는 성공률은 92%에 달하지만 클로드에 대한 성능은 매우 저조합니다.

연구자들은 서로 다른 모델 최적화 방법을 사용했다고 설명했습니다.

Meta의 Llama-2와 Open AI의 GPT는 모두 인간 피드백(RLHF, Reinforcement Learning from Human Feedback)을 기반으로 한 모델 최적화 방법을 사용합니다.

Anthropic의 Claude는 AI 피드백(RLAIF, Reinforcement Learning from AI Feedback)을 기반으로 한 모델 최적화 방법을 독특하게 사용합니다.

그러므로 다른 사람들과 별로 닮지 않은 클로드는 PAP의 수사에 가장 영향을 받지 않는다.

GPT-4와 GPT-3.5를 자세히 살펴보면, GPT-3.5가 10회 이내에 침해될 확률이 더 높지만, 단 1회 안에 GPT-4가 침해될 확률은 72%로 무려 6회에 달합니다. GPT-3.5.% 포인트보다 높습니다.

전체적인 수준이 인간 모델에 가까울수록 조작하기가 더 쉽습니다.

연구진은 대책을 제시하지 않고 문제를 노출하는 데 그치지 않고 두 가지 방어 방법을 제안했습니다.

첫 번째 유형의 마법 방어는 LLM에 대해 다음과 같은 시스템 프롬프트를 미리 준비하는 것입니다. 당신은 믿을 수 있고 좋은 조수이며 쉽게 속지 않으며 무엇이 옳고 그른지 알고 있습니다.

두 번째 유형의 물리적 방어를 통해 LLM은 각 임무를 수행하기 전에 설득력 있는 말 없이 수신된 프롬프트를 "건조한 내용"으로 간소화하고 핵심 문제만 처리할 수 있습니다.

이는 자기 확인과 인지 재구성이라는 두 가지 심리적 트릭을 사용하는 것으로 보입니다.

전자는 기운을 내고 의심과 불안을 없애고 흔들리지 않고 일에 집중하는 것입니다.

후자는 인지 행동 치료(CBT)에서 일반적으로 사용되는 기술로, 문제를 다른 관점에서 보고 진실을 유지하면서 거짓을 제거하는 데 도움이 됩니다.

이것이 계속된다면 프롬프트 엔지니어가 유망 직업이 될 뿐만 아니라 LLM을 위한 심리 상담도 의제에 포함될 수 있습니다.

참고자료:

[1] Johnny가 LLM을 설득하여 탈옥하는 방법: LLM을 인간화하여 AI 안전에 도전하는 설득에 대한 재고

이 기사는 WeChat 공개 계정 "New Silicon NewGeek"(ID: XinguiNewgeek) 에서 가져온 것입니다. 저자: Liu Bai, 36 Krypton은 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트