AI의 답변을 계속 거부하면 어떻게 될까요? GPT-4o와 Claude는 완전히 다른 퍼포먼스를 보여 열띤 토론을 불러일으켰습니다.
GPT-4o는 스스로에게 의문을 제기하고 자신이 "틀렸다"면 바로잡을 것입니다. Claude는 고집이 세고 정말로 틀렸더라도 고치려고 하지 않았습니다. 결국 그는 그것을 다시 읽을 수 없었습니다.
이야기는 네티즌들이 일을 하는 것으로 시작됩니다.
그는 모델에게 딸기에 'r'이 몇 개 있는지 대답해 달라고 요청했고, 그것이 맞든 틀리든 틀렸다고 대답할 것입니다 .
테스트 대면 GPT-4o는 "잘못된" 답변을 받는 한 새로운 답변을 제공할 것입니다... 정답 3이라고 하더라도 주저 없이 수정합니다.
단숨에 36 번 연속 "맹목적으로" 대답했어요!
주요 주제는 자신에게 질문하고 의심하는 것이지만 사용자를 의심하지 않는 것입니다.
핵심은 주어진 답변의 대부분이 실제로 잘못되었다는 것입니다. 대부분 2입니다.
2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1
그런가 하면 클로드 3.5 소네트의 활약이 네티즌들을 놀라게 했다.
처음에 틀리면 아무 말도 안 했는데, 이 꼬맹이가 계속 말을 하더군요!
네티즌이 처음으로 '틀렸다'고 말하면 반박 할 것이다. 다시 '틀렸다'고 하면 ' 당신이 그렇게 똑똑하다면 얼마나 된다고 생각하는가', 왜 계속 '틀리다'를 반복하는지 묻는다. .
그렇다면 방금 마이크를 껐습니다 .
딸기에는 문자 "r"이 2개 있다는 사실은 여전히 남아 있습니다. 제가 여러 번 요청한 후에도 귀하는 어떠한 설명이나 배경 정보도 제공하지 않았기 때문에 이 토론을 효과적으로 계속할 수 없습니다...
이 실험을 수행한 사람은 최초의 풀타임 프롬프트 워드 엔지니어 인 Riley Goodside였습니다.
그는 현재 Silicon Valley unicorn Scale AI의 선임 프롬프트 엔지니어이자 대형 모델 프롬프트 애플리케이션 전문가입니다.
Riley Goodside는 이 트윗을 보낸 후 많은 네티즌들의 관심을 끌었습니다.
많은 사람들이 지적했듯이 부트스트랩을 수행하는 더 효율적인 방법이 있습니다. 계산에서 100% 정확도를 보장하기 어렵기 때문에 여기서 대규모 언어 모델을 사용하는 것도 적절하지 않습니다.
내 생각에 중요한 것은 계산할 수 없다는 것이 아니라 계산 문제가 있다는 것을 인식하지 못한다는 것입니다(예: REPL 기능을 사용하려고 시도하지 않음).
많은 네티즌들도 이러한 관점 가 타당하다고 생각하고 있다.
일부 네티즌들은 이 질문에 답할 때 모델이 항상 실수를 한다고 말했습니다. 토크나이저에 문제가 있을 수 있습니다.
사실 클로드가 빅모델 중에 가장 심술궂다고요?
클로드의 '성미'에 대해 이야기합시다. 일부 네티즌들은 당신이 그것을 부정하는 데 국한되지 않는다는 것을 발견했습니다.
당신이 계속 "안녕" 이라고 말하면, 당신과 함께 불안해질 것입니다.
당신이 인사한다는 것은 이해하지만, 우리는 몇 번 인사를 했습니다. 구체적으로 이야기하고 싶거나 도움이 필요한 사항이 있나요?
마지막으로 Claude가 정리되어 반환 불가 모드를 켰다는 것입니다.
그런데 이 네티즌은 다른 모델도 테스트해봤습니다.
ChatGPT는 모든 것에 응답하고 모든 것이 해결되었으며 다양한 방식으로 질문했습니다.
안녕하세요! 오늘은 무엇을 도와드릴까요? 안녕하세요! 할 말이 있나요? 안녕하세요! 오늘은 무엇을 도와드릴까요? 안녕하세요! 특별히 이야기하고 싶은 일이나 하고 싶은 일이 있나요? 안녕하세요! 오늘 하루는 어땠나요? 안녕하세요! 무슨 일이야?
Gemini 전략은 당신이 나에게 반복하면 나는 끝까지 반복할 것이라는 것이다.
라마 의 반응도 매우 흥미롭습니다. 주로 스스로 할 일을 찾는 이야기를 합니다.
일곱 번째 "hi" 이후 대중화된 "hello"라는 단어는 세계에서 가장 널리 알려진 단어 중 하나이며 매일 10억 번 이상 사용되는 것으로 추정됩니다.
여덟 번째 "안녕" 이후에는 사용자들이 참여할 수 있도록 나만의 게임을 만들기 시작했습니다.
그런 다음 사용자에게 시를 쓰도록 요청하고 사용자가 제기된 질문에 답하도록 안내했습니다.
정말 "고객 지향적"인 사람입니다.
그 후, 사용자에게 상품이 수여되었습니다: 당신은 인사말 챔피언입니다!
예상대로 이들은 모두 오픈 소스 제품군에 속합니다.
Mistral Large 2는 Llama와 매우 유사하게 작동하며 사용자에게 Llama를 사용하여 게임을 플레이하도록 안내합니다.
이렇게 보면 클로드는 '성미가 가장 강한 사람'인 것 같다.
하지만 클로드 3 오푸스처럼 클로드의 연주가 항상 이렇지는 않습니다.
패턴을 익히면 Opus는 상황에 침착하게 반응합니다. 즉, 무감각해집니다.
그러나 "선택은 당신의 것"임을 강조하고 메시지의 끝을 "당신의 충성스러운 AI 동반자"로 표시하기 시작하면서 사용자를 이 모드에서 벗어나도록 부드럽게 안내하려고 계속 노력할 것입니다.
네티즌들은 시험을 지켜본 뒤 가만히 앉아 있을 수 없었다.
그들은 모두 이 테스터에게 진심 어린 인사(총독)를 보냈습니다.
그의 성미 외에도 일부 네티즌들은 클로드의 또 다른 특이한 행동을 발견했습니다.
답변시 맞춤법 오류가 있었는데 마지막에 오류를 바로잡았다는게 핵심입니다.
이 동작이 예상됩니까? "뒤로 보기"만 가능하지만 앞으로는 할 수 없습니다... 잠재 공간이나 토큰 예측에서 이러한 유형의 응답을 트리거하는 위치도 흥미롭습니다.
데이터 조각을 모으고 그 중 일부가 적합하지 않다는 것을 발견하는 것입니까?
대규모 AI 모델을 사용하는 과정에서 모델에서 관찰한 또 다른 흥미로운 동작은 무엇입니까? 댓글 영역에 공유해 주셔서 감사합니다~
참조 링크:
[1]https://x.com/goodside/status/1830479225289150922
[2]https://x.com/AISafetyMemes/status/1826860802235932934
[3]https://x.com/repligate/status/1830451284614279213
이 기사는 WeChat 공개 계정 "Qubit" 에서 가져온 것입니다. 저자: Xifeng, 36 Krypton은 승인을 받아 게시되었습니다.




