ChatGPT o1의 전체 상태 버전이 출시되었지만 실제로 실제 테스트에서 Wenxin Kimi에게 패했습니다.

avatar
36氪
12-09
이 기사는 기계로 번역되었습니다
원문 표시

2022년 12월 5일 현지 시간, OpenAI가 ChatGPT의 o1과 o1-Pro 두 개의 새로운 AI 모델을 공식적으로 출시했습니다. o1 모델은 이전에 o1-preview라는 이름으로 일부 기능만 공개되었었지만, 이번에 preview 라벨이 제거되면서 완전한 기능을 갖춘 o1 모델이 정식으로 출시되었습니다.

출처: 雷科技

간단한 테스트 결과, 완전한 기능을 갖춘 o1 모델은 이미지와 파일 업로드를 지원하며, 이전에는 텍스트 입력만 가능했습니다. 즉, 멀티모달 이해 기능이 추가되었습니다. 하지만 웹 검색 기능은 아직 출시되지 않아 아쉬움이 남습니다.

o1 모델의 성능 향상에 대해 OpenAI의 CEO 오트만은 간단한 막대그래프로 비교했습니다: o1이 수학 추론과 프로그래밍 분야에서 o1-preview보다 약 50% 향상된 것을 볼 수 있지만, 연구 분야에서는 상대적으로 제한적인 성능 향상을 보였습니다.

출처: OpenAI

o1 모델은 추가 비용 없이 사용할 수 있어 사용자에게 매우 유용합니다. 하지만 OpenAI의 진정한 목적은 새로운 o1-Pro에 있습니다. o1-Pro를 사용하려면 새로운 200달러 구독 패키지를 구매해야 합니다. 이는 현재 개인 사용자를 대상으로 한 AI 분야의 가장 비싼 구독 방식입니다.

OpenAI가 제공한 성능 비교 자료에 따르면, o1-Pro는 o1 모델 기반으로 개선되었지만, 향상 폭은 크지 않습니다. 따라서 일반 사용자에게는 o1 모델만으로도 충분할 것으로 보입니다.

물론 200달러 구독 패키지에는 o1-Pro 외에도 o1 모델의 무제한 사용 및 고급 음성 기능이 포함되어 있습니다. 만약 o1 모델의 질문 한도가 부족하다고 느낀다면 이 패키지가 개인 사용자의 유일한 선택이 될 것입니다.

새로운 모델이 출시되었으니 당연히 테스트해볼 시간입니다. 이번에는 o1 완전 기능 버전의 멀티모달 기능을 중점적으로 테스트했고, 두 개의 국내 AI 모델(kimi와 문심일언)도 친선 경기에 참여했습니다.

01 o1 완전 기능 버전, 「무적」은 아니다

o1 모델의 강점은 수학 등 고급 추론 능력입니다. 그래서 먼저 이 분야에서 시험해보겠습니다. 다음은 그리 어렵지 않은 수학 계산 문제입니다:

어떤 회사가 특정 제품을 생산하고 있습니다. 생산 비용과 생산량의 관계는 C(x) = 3x^2 - 2x + 5(단위: 만 달러)이며, 여기서 x는 생산량(단위: 천 개)입니다. 시장 판매 가격과 생산량의 관계는 P(x) = 50 - 0.5x(단위: 만 달러/천 개)입니다.

1. 이 회사가 x천 개의 제품을 생산할 때의 총 이익 함수 L(x)를 구하시오.

2. 이 회사가 최대 이익을 얻기 위해 생산해야 할 제품의 양과 최대 이익을 계산하시오.

먼저 국내 AI의 답변을 살펴보겠습니다:

kimi

문심일언

국내 AI 모델들은 모두 188.14만 달러라는 동일한 답변을 제시했습니다. 이제 ChatGPT-o1의 답변을 살펴보겠습니다.

o1

o1 모델도 188.14만 달러라는 답변을 내놓았습니다. 즉, 세 개의 AI 모델 모두 문제의 정답을 맞혔습니다. 하지만 답변 화면을 보면 차이점도 발견할 수 있습니다. o1 모델은 계산 과정을 자세히 보여주어 사용자가 추론 과정을 쉽게 확인할 수 있습니다.

이는 o1 모델의 주요 용도가 연구 등 분야에 있기 때문입니다. o1 모델은 정답 제시뿐만 아니라 추론 과정의 정확성도 중요하게 여깁니다.

다음으로 이미지를 이용한 질문을 해보겠습니다. 초등학교 4학년 수학 올림피아드 문제 같은 추상적인 수학 문제를 입력해보겠습니다:

역시 국내 AI 모델의 답변부터 살펴보겠습니다:

kimi

문심일언

두 국내 AI 모델은 각각 A와 B 선택지를 제시했습니다. 특히 kimi의 경우 초등학교 수학 문제를 고등 수학 방식으로 상세히 분석했습니다.

이제 o1 모델의 답변을 살펴보겠습니다:

o1

o1 모델도 B를 답변했습니다. 그렇다면 kimi가 틀렸다는 의미일까? 아니, 정답은 A입니다. 즉, o1과 문심일언이 잘못 판단했습니다. 문심일언은 자세한 추론 과정을 보여주지 않아 어디서 잘못되었는지 알 수 없지만, o1 모델은 이미지 분석 과정에서 집합의 개수를 잘못 파악하여 오답을 내놓았습니다.

이 문제를 통해 AI 대형 모델들이 유사한 그래픽 문제를 해결하는 방식의 차이를 볼 수 있습니다. 문심일언과 o1은 그림의 패턴을 직접 찾아내려 했지만, kimi는 그래픽 방정식으로 변환하여 계산했습니다.

효율성 측면에서는 문심일언과 o1의 방식이 더 유리하지만, 분석 능력이 부족하면 오답을 내놓을 수 있습니다. 반면 kimi의 방식은 더 많은 연산이 필요하지만 정확성이 보장됩니다.

기업 입장에서는 연산 효율성과 비용 절감을 위해 그래픽 추론 방식이 최선의 선택일 것입니다. 하지만 o1이 고급 모델이자 연구 보조 도구로 포지셔닝되어 있다는 점을 고려하면, 정확성을 희생하고 효율성만을 추구하는 것은 사용자를 설득하기 어려울 것 같습니다.

다음으로 프로그래밍 분야의 성능을 살펴보겠습니다. 이번 문제는 그리 어렵지 않습니다:

제가 소프트웨어를 만들고 싶습니다. 이 소프트웨어는 매 시간마다 컴퓨터의 네트워크 연결 상태를 확인하고, 연결이 끊기면 컴퓨터를 재부팅하며, 연결이 정상이면 현재 상태를 유지하는 기능을 합니다.

두 국내 AI 모델의 답변은 다음과 같습니다:

kimi

문심일언

요구 사항이 간단해서 간단한 테스트 후 가상 머신에서 성공적으로 실행되었습니다. 다만 두 모델의 답변에 약간의 차이가 있습니다. kimi는 코드에 주석을 달아 설명했고, 문심일언은 추가 주의 사항과 라이브러리 설치 등 더 자세한 정보를 제공했습니다.

그렇다면 o1 모델은 어떤 답변을 내놓았을까요? 'HT'는 '후오비 토큰(HT)'로, 'OP'는 '옵티미즘(OP)'으로, 'KSM'은 '쿠사마(KSM)'으로, 'AMP'는 '앰프(AMP)'로, 'RON'은 'Ronin(RON)'으로, 'ONG'는 '온톨로지가스(ONG)'로, 'TRON'은 '트론(T

o1

o1 모델의 답변을 보면 세 부분으로 구성되어 있습니다. 먼저 구현 방법을 제시하고, 그 다음에 예시 코드와 주석을 제공하며, 마지막으로 코드 작성 과정을 분석하고 테스트 방법과 대안을 제시합니다. 이는 두 AI의 장점을 모두 포함하고 있어 초보자에게 더 나은 경험을 제공할 수 있습니다.

생산성 측면에서 o1 모델은 특정 분야에서 뛰어난 성과를 보였지만, 국내 AI도 결코 뒤처지지 않습니다. 특히 kimi는 모든 테스트 문제를 정답으로 맞춰 놀라움을 주었습니다.

여기까지 테스트를 진행했지만, 일상 영역에서 o1 모델의 성능과 일반 모델의 차이가 어떨지 궁금합니다.

그래서 추가 문제를 내보았습니다. 인터넷에서 찾은 딸기 파이 사진을 보여주고 AI에게 그 디저트를 만드는 방법을 물어보았습니다.

kimi

문심일언

o1

세 AI 모두 디저트 종류를 쉽게 식별했고 유사한 레시피를 제공했습니다. 다만 o1 모델의 답변은 각 단계의 작업 방법과 주의사항까지 자세히 설명했습니다. 국내 AI의 레시피는 상대적으로 간단했지만, 베이킹 경험이 있는 사람에게는 충분할 것 같습니다. 하지만 초보자라면 o1 모델의 레시피가 성공률이 훨씬 높을 것 같습니다.

02 AI의 다음 단계는 '진정한 사고'를 배우는 것

전반적으로 o1 모델은 답변의 세부사항 등에서 명확한 장점을 보였습니다. 추론 과정을 확인하거나 더 자세한 답변이 필요한 경우 o1 모델의 경험이 더 좋을 것 같습니다.하지만 정답률 측면에서는 o1과 국내 AI 간에 큰 차이가 없으며, kimi의 성과가 더 좋았습니다.

또한 국내 AI도 추가 질문을 통해 더 자세한 답변과 추론 과정을 얻을 수 있습니다. 대부분의 경우 o1 모델이 뚜렷한 장점을 보이지 않았고, 일상적인 ChatGPT 사용에서도 ChatGPT-4o로 충분했습니다.

장기 ChatGPT 사용자로서 저는 o1 모델이 연구원이나 금융 분석가 등 전문직에 더 적합하다고 생각합니다. 이들은 일상적으로 많은 수학 도구를 사용하고 복잡한 추론을 거치기 때문에, o1 모델의 맞춤형 훈련을 통한 다단계 추론 과정이 큰 도움이 될 것 같습니다.

o1-pro의 경우 다른 사용자 테스트 결과를 보면 o1 모델과 큰 차이가 없습니다. 주된 차이는 o1-pro가 더 많은 연산 능력을 활용해 답변의 정확성을 반복적으로 검증하고 더 자세한 추론 과정을 제공할 수 있다는 점입니다.

사실 AI 대규모 모델 개발이 현재 단계에 이르면서 세분화의 징조가 나타나고 있습니다. 이전에는 많은 기업이 다기능 멀티모달 모델을 만들고자 했지만, 비용이 많이 들고 성과도 좋지 않아 '환각' 등의 문제를 해결하지 못했습니다.

ChatGPT-o1은 이에 대한 다른 해법을 제시했습니다.충분한 연산 능력이 있다면 AI가 먼저 문제를 깊이 '사고'하고, 그 결과를 바탕으로 문제를 해결할 수 있습니다.이는 o1이 문제 자체를 분석하고 그에 따라 해결책을 제시하는 것이고, 일반 AI는 키워드 분해 후 알고리즘에 따라 데이터를 조합하여 답변을 내놓는 것입니다. 후자는 속도는 빠르지만 정확도가 보장되기 어려워, 특히 복잡한 문제에서 한계를 보입니다.

따라서 kimi와 문심일언도 AI에게 '사고'를 가르치는 다른 방식을 시도하고 있다고 볼 수 있습니다. 단순히 알고리즘과 데이터에 의존하여 답변을 내놓는 것이 아니라, 진정한 이해와 추론을 통해 답변을 도출하는 것입니다. kimi의 수학 테스트 성과는 특히 인상 깊었습니다. 무료로 사용할 수 있고 가성비와 경험이 모두 뛰어났습니다.

솔직히 말해, ChatGPT의 20달러 구독료 대비 가치는 그리 높지 않습니다. 무료로 제공되는 kimi와 다양한 지능체와 공식 도구를 갖춘 문심일언이 더 좋은 선택이 될 것 같습니다.

이 기사는 WeChat 공众号 "가치연구소"(ID: jiazhiyanjiusuo)에서 발췌했습니다. 저자: TSknight, 36Kr의 허가를 받아 게재했습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트