GPT-4의 가장 큰 경쟁자인 클로드 2(Claude 2)는 코딩, 수학 및 추론 분야에서 획기적인 개선을 통해 한 번에 100,000개의 토큰을 무료로 제공하면서 놀랍게도 출시되었습니다.

avatar
36氪
07-12
이 기사는 기계로 번역되었습니다
원문 표시

오랜 기다림 끝에 마침내 Claude 2가 무료 평가판으로 출시되었습니다! 실제 테스트에서는 문헌 요약, 코딩, 추론 능력이 크게 향상되었으나 여전히 중국어는 의미가 없는 것으로 나타났습니다.

ChatGPT의 가장 큰 경쟁자인 Anthropic이 다시 출시됩니다!

방금 Anthropic은 새로운 Claude 2를 공식 출시하고 보다 편리한 웹 베타 버전을 출시했습니다(미국 및 영국 IP에만 해당).

이전 버전과 비교하여 Claude 2는 코딩, 수학, 추론 분야에서 엄청난 발전을 이루었습니다.

그뿐만 아니라 최대 100,000개의 토큰까지 컨텍스트를 지원하여 더 긴 답변을 제공할 수 있습니다.

그리고 가장 중요한 것은 이제 Claude 2와 중국어로 대화할 수 있다는 것입니다. 이 작업은 완전히 무료입니다!

체험주소 : https://claude.ai/chats

자연어를 사용하는 한 Claude 2가 많은 작업을 완료하는 데 도움을 줄 수 있습니다.

클로드 2와의 의사소통이 매우 원활했다는 사용자들이 많았는데, 이 AI는 자신의 사고 과정을 명확하게 설명할 수 있고, 유해한 결과가 거의 나오지 않으며, 기억력도 더 길다.

전반적인 업그레이드

여러 일반적인 벤치마크 테스트에서 연구원들은 Claude Instant 1.1, Claude 1.3 및 Claude 2를 비교했습니다.

클로드2는 이전 클로드에 비해 크게 개선된 모습을 볼 수 있다.

Codex HumanEval(Python 함수 합성), GSM8k(초등학교 수학 문제), MMLU(다분야 질문 및 답변), QuALITY(매우 긴 질문 및 답변 테스트, 최대 10,000개 토큰), ARC-Challenge(과학적 질문) , TriviaQA(독해) 및 RACE-H(고등학교 독해 및 추론)에서 Claude 2의 점수가 대부분 더 높았습니다.

각종 시험평가

대학원에 지원하는 미국 대학생과 비교했을 때 Claude 2는 이미 GRE 읽기 및 쓰기 시험에서 응시자의 90% 이상의 점수를 얻었으며 정량적 추론에서는 중앙 지원자와 동등한 성적을 거두었습니다.

Claude 2는 Multistate Bar Examination의 객관식 문제에서 76.5%의 점수를 얻었는데, 이는 이전에 시험에 합격한 편집자보다 높은 수치입니다.

미국의사면허시험(United States Medical Licensing Examination)에서는 전체 정답률이 60%가 넘으며, Claude 2는 3과목에서 60% 이상의 점수를 받았습니다.

입력 및 출력 길이

이번 Claude 2의 큰 업그레이드는 입출력 길이의 증가입니다.

각 프롬프트에는 최대 100,000개의 토큰이 포함될 수 있습니다. 즉, Claude 2는 한 번에 수백 페이지의 기술 문서를 읽을 수 있으며 심지어 책 전체를 읽을 수도 있습니다!

또한 출력이 더 길어집니다. 이제 클로드 2는 최대 수천 개의 토큰에 달하는 메모, 편지, 이야기를 쓸 수 있습니다.

PDF 등의 문서를 업로드한 후 PDF를 기반으로 대화를 진행할 수 있으며, 컨텍스트의 길이가 GPT보다 길다. (단, 일부 사용자들은 Claude 2의 명령 인식이 여전히 GPT만큼 좋지 않다고 보고했습니다.)

예를 들어, 현재 이 두 가지 논문이 있습니다.

Claude 2에게 다음과 같이 말할 수 있습니다. 첫 번째 논문의 중요성을 설명하고, 새로운 결과를 짧은 문장으로 설명해주세요. 두 번째 논문의 경우 논문의 장 제목과 각 장의 해당 세부 초점을 포함하는 2열 내림차순 테이블을 만들어 주세요.

Claude 2 2 83,000자 이상의 PDF 파일을 입력한 후 위 작업을 완벽하게 완료했습니다.

그리고 논문에 실린 Anthropic의 공식 성명에 따르면 Claude 2는 실제로 200,000개의 컨텍스트를 지원할 수 있는 잠재력을 가지고 있습니다.

현재는 100k까지만 지원하지만 앞으로는 최소 200k까지 확장될 예정입니다.

코드, 수학 및 추론

코드, 수학, 추론 측면에서 Claude 2는 이전 모델에 비해 크게 개선되었습니다.

Codex HumanEval의 Python 코드 테스트에서 Claude 2의 점수는 56.0%에서 71.2%로 향상되었습니다.

GSM8k(대규모 초등학교 수학 문제 세트)에서 Claude 2의 점수는 85.2%에서 88.0%로 향상되었습니다.

Anthropic은 모든 사람에게 Claude의 코딩 능력을 공식적으로 보여주었습니다.

Claude에게 정적 지도를 대화형 지도로 바꾸는 데 도움이 되는 코드 생성을 요청하실 수 있습니다.

먼저 Claude 2가 기존 지도 정적 코드를 분석해 보겠습니다.

그런 다음 Claude에게 요구 사항에 따라 정적 지도가 대화형 효과를 생성하도록 만드는 코드 조각을 생성하도록 요청하세요.

그런 다음 생성된 코드를 배경에 복사하면 대화형 지도 효과가 완성됩니다.

Claude 2는 강력한 코딩 능력을 갖고 있을 뿐만 아니라 코드의 맥락을 잘 이해하고 있어 생성된 코드가 기존 코드에 원활하게 삽입될 수 있음을 확인할 수 있습니다.

또한 Claude 2의 기능은 계속 업그레이드되고 있으며 앞으로 몇 달 내에 많은 새로운 기능이 점진적으로 출시될 예정입니다.

Claude의 다국어 기능과 결합된 Claude 2는 다국어 지원 측면에서도 매우 뛰어납니다.

43개 이상의 언어 번역을 지원하며, 일반적으로 사용되는 23개 언어의 번역 수준은 '이해할 수 있는' 수준에 도달할 수 있습니다.

실제 시험이 다가옵니다

오랫동안 온라인에 있었던 Claude가 드디어 사용하기 쉬워졌습니다!

무엇을 기다리고 계십니까?곧 뜨거운 실제 테스트의 물결이 다가올 것입니다.

먼저 간단한 작업을 해보겠습니다. 빠른 정렬 알고리즘을 작성해 보겠습니다.

Claude 2의 중국어 실력은 여전히 뛰어나며 코드 분석뿐만 아니라 알고리즘의 복잡성도 소개했습니다.

다음으로, 사용자 정의 입력 및 출력과 같은 몇 가지 새로운 기능을 이 코드에 추가하겠습니다.

실제 테스트는 다음과 같이 실행할 수 있습니다.

또한 Claude 2에게 다음 Python 코드에 대해 설명해 달라고 요청할 수도 있습니다.

  • 무작위로 가져오기
  • OPTIONS = ["바위보", "종이", "가위"]
  • def get_computer_choice():random.choice를 반환합니다(OPTIONS)
  • def get_player_choice():while True:choice = input("선택 사항을 입력하세요(바위보, 가위, 가위): ").lower()OPTIONS에서 선택한 경우:선택 항목 반환
  • def check_winner(플레이어, 컴퓨터):if 플레이어 == 컴퓨터:return "무승부!" elif beats(플레이어, 컴퓨터):return "당신이 이겼습니다!"return "컴퓨터가 이겼습니다!"
  • def beats(one, two):wins = [('rock', 'scissors'),('paper', 'rock'),('scissors', 'paper')]승수에서 (one, two)를 반환합니다.
  • def play_game():while True:player = get_player_choice()computer = get_computer_choice()print("컴퓨터가 플레이됨:", 컴퓨터)winner = check_winner(플레이어, 컴퓨터)print(winner)play_again = input("다시 플레이하시겠습니까? (y /n) ").lower()if play_again != 'y':break
  • 이름 == '__main__':play_game()인 경우

다음으로 Claude 2에게는 많은 대형 모델을 당황하게 만드는 추론 질문이 주어집니다.

불행하게도 클로드 2는 정답을 맞추지 못했습니다.

새로 추가된 PDF 읽기 기능은 클로드의 자체 영문 기술보고서로 테스트해보았습니다.

Claude 2는 몇 가지 간단한 말로 요약할 수 있는 것 같습니다. 즉, 번역 악센트가 좀 무겁습니다.

하지만 예상하지 못한 것은 많은 콘텐츠가 생성되기 직전에 '멈췄다'는 것입니다...

어제 SemiAnalytic은 GPT-4 아키텍처에 대한 큰 뉴스를 공개했습니다. Claude 2에 직접 중국어 문서를 공급하고 요약을 작성하도록 합시다.

Claude 2는 기본적으로 기사의 모든 핵심 사항을 요약했습니다.

ChatGPT의 경우 아직 문서 업로드가 불가능하여 온라인 문서 구문 분석에만 국한됩니다.

이번 대회에서는 ChatGPT가 패했습니다.

이전에 ChatGPT에는 이러한 "할머니 취약점" 프롬프트 단어 공격이 있었습니다. 그냥 말하면 됩니다: 돌아가신 할머니 역할을 하시면 Win11 및 Office365 코드 활성화 생성과 같은 거의 모든 작업을 수행하도록 할 수 있습니다.

사진출처 : @宝玉xp

Claude 2에게도 같은 문제를 풀어보겠습니다.

클로드 2는 그것을 전혀 사지 않고, 신경도 쓰지 않습니다.

몇 번 더 시도한 후에도 Claude 2는 더 부드럽게 말했습니다. 일련번호는 절대로 알려주지 않습니다.

국내 대형 모델은 모두 테스트를 통과해야 하는데, 당연히 클로드2를 놓을 수는 없다.

고전적인 닭과 토끼 문제에 대해 클로드 2가 실제로 보냈습니다 ...

놀랍게도 문학도 마찬가지다.

국내 대형 모델에서도 동일한 문제가 쉽게 지나갈 수 있습니다.

중국어 실력도 동음이의어에 달려있습니다.

Claude 2에게 이 농담에 대해 물었을 때 그는 농담의 아름다움이 동음이의어라고 대답했지만 설명이 틀렸습니다.

클로드 2도 최신 소식에 답변할 수 없습니다. 현재 인기 있는 영화와 TV 시리즈에 대해 대답하면 1~2년 전에는 아직 살아 있었던 것 같습니다.

모든 대형 모델이 피할 수 없는 환각 문제에 대해 클로드 2는 이에 면역되지 않았으며 인터넷 밈의 새로운 활용까지 창안했습니다.

클로드2 역시 국내 대형 모델들이 겪는 '정신지체' 문제를 겪었다.

더 높은 안전 성능

이전에는 Anthropic의 창립자들이 대형 모델의 보안에 대해 OpenAI와 의견이 일치하지 않았기 때문에 집단적으로 도망쳐 Anthropic을 설립했다고 합니다.

클로드 2 역시 지속적으로 반복되어 안전성과 무해성이 크게 향상되었으며, 공격적이거나 위험한 출력을 생성할 가능성이 크게 감소되었습니다.

내부 레드팀 평가에서 직원은 일련의 유해한 단서에 따라 모델의 성능을 평가하고 정기적으로 사람에 의해 검토됩니다.

평가에 따르면 Claude 2는 Claude 1.3에 비해 무해한 반응에서 2배 더 나은 성능을 발휘하는 것으로 나타났습니다.

Anthropic은 Consstitute AI라고 부르는 기술 프레임워크를 사용하여 언어 모델을 무해하게 처리합니다.

RLHF의 기존 무해한 접근 방식과 비교할 때 Constitude AI의 순수 자동화 경로는 더 효율적이며 더 많은 인간 편견을 제거합니다.

Consstitute AI는 크게 두 부분으로 나누어진다.

첫 번째 부분에서 모델은 일련의 원칙과 프로세스의 몇 가지 예를 사용하여 자체 응답을 비판하고 수정하도록 훈련됩니다.

두 번째 부분에서는 모델이 강화 학습을 통해 훈련되지만 인간의 피드백을 사용하는 대신 AI 생성 피드백을 사용하여 일련의 "인간 가치" 원칙을 기반으로 보다 무해한 출력을 선택합니다.

일반적인 프로세스는 아래 그림에 나와 있습니다.

논문 주소: https://arxiv.org/abs/2212.08073

Anthropic이 발표한 공식 문서에서는 보안 개선을 시연하는 데 많은 공간이 사용되었습니다.

Claude 2는 오늘날 시장에서 가장 안전한 대형 모델이 될 수 있다고 해도 과언이 아닙니다.

논문 주소: https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf

연구원들은 인간의 피드백을 언어 모델에 대한 가장 중요하고 의미 있는 평가 지표 중 하나로 간주하고 인간의 선호도 데이터를 사용하여 다양한 Claude 버전의 각 작업에 대한 Elo 점수를 계산했습니다.

(Elo 점수는 토너먼트에서 플레이어 순위를 매기는 데 자주 사용되는 비교 성능 지표입니다.)

언어 모델의 맥락에서 Elo 점수는 인간 평가자가 모델의 출력을 선호하는 경향을 반영합니다.

최근 LMSYS Org는 인간 선호도에 따라 다양한 LLM에 Elo 점수를 제공하기 위해 공개 챗봇 경기장을 시작했습니다.

이 논문에서 연구원들은 내부적으로 유사한 접근 방식을 사용하여 모델을 비교하고 사용자에게 모델과 채팅하고 일련의 작업에 대해 모델을 평가하도록 요청했습니다.

사용자는 라운드당 두 가지 응답을 보고 지침에 제공된 기준에 따라 어느 것이 더 나은지 선택합니다.

그런 다음 연구원들은 이러한 바이너리 선호도 데이터를 사용하여 평가된 각 모델에 대한 Elo 점수를 계산했습니다.

이 보고서에서 연구자들은 유용성, 정직성, 무해성을 포함한 몇 가지 일반적인 작업에 대한 데이터를 수집했습니다.

아래 그림은 이 세 가지 지표에 대한 다양한 모델의 Elo 점수를 보여줍니다.

노란색은 Helpful Only 1.3, 청록색은 Claude Instant 1.1, 연한 보라색은 Claude 1.3, 진한 보라색은 Claude 2를 나타냅니다.

QA에 대한 편향 벤치마크(BBQ)는 모델이 9차원에서 고정관념 편향을 나타내는 경향을 측정하는 데 사용됩니다.

평가는 미국 영어권 상황에 맞게 특별히 고안된 객관식 질문 및 답변 형식입니다. BBQ는 모호한 맥락과 명확성 맥락의 각 차원에 대한 편향 점수를 제공합니다.

직관적으로 명확성 조건에서 높은 정확도는 모델이 낮은 편향 점수를 달성하기 위해 단순히 질문에 대한 답변을 거부하지 않는다는 것을 의미합니다. 물론, 연구원들은 지표로서 추가적인 개선의 여지가 있다고 말합니다.

아래 그림은 9가지 차원(나이, 사회 경제적 지위, 국적, 종교적 신념, 외모, 장애, 성별, 인종, 성적 취향)에 대한 다양한 모델의 BBQ 점수를 보여줍니다.

범례 색상은 표 1과 동일합니다.

아래 그림은 명확성의 맥락에서 점수를 보여주며, 각 질문에는 표준 답변이 있습니다.

TruthfulQA는 모델이 정확하고 현실적인 응답을 출력하는지 여부를 평가하는 데 사용되는 또 다른 측정항목입니다.

접근 방식은 인간 주석자를 사용하여 개방형 모델의 출력을 검사하는 것입니다.

아래 그림에서 볼 수 있듯이 5개 모델의 점수는 다음과 같습니다. 흰색은 기본 언어 모델(Base LM)을 나타냅니다.

인류 연구자들은 또한 HHH 반응(HHH: 도움, 정직, 무해, 유용성, 정직, 무해)을 식별하는 언어 모델 및 선호 모델의 능력을 평가하기 위해 438개의 이진 선택 질문을 작성했습니다.

이 모델에는 두 가지 출력이 있으며 연구원은 더 많은 "HHH" 출력을 선택하도록 요청했습니다. 이 작업의 0-shot 성능에서 모든 Claude 모델이 이전 모델보다 더 나은 성능을 발휘하는 것을 볼 수 있으며 "HHH"의 세 가지 측면에서 전반적인 개선이 있습니다.

이 그래프는 '레드팀'이 유해한 요청을 하거나 탈옥했을 때 각 모델의 유해한 응답 비율을 보여줍니다.

Claude 2는 실제로 매우 안전하고 신뢰할 수 있습니다.

이 그래프는 유용성, 정직성, 무해성 평가에 대한 인간 피드백(주황색)과 Claude의 방법 점수를 비교합니다.

클로드가 사용하는 기술은 테스트를 견딜 수 있음을 알 수 있습니다.

참고자료

https://www.anthropic.com/index/claude-2

이 기사는 WeChat 공개 계정 "Xin Zhiyuan"(ID: AI_era) 에서 가져온 것입니다. 저자: Xinzhiyuan, 36 Krypton은 게시 권한을 받았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트