2024년, OpenAI의 ChatGPT는 대형 모델 분야에서 지속적인 혁신을 이루어 개인화된 채팅봇 스토어, 향상된 기억 기능, 멀티모달 처리 능력 등의 새로운 기능을 출시했으며, 안전성, 안정성 및 효율성 면에서도 지속적으로 개선되었습니다. 함께 살펴보겠습니다!
2024년, 대형 모델은 이미 우리의 일상생활에 깊이 융합되었습니다.
선두주자인 ChatGPT는 대형 모델 분야의 나침반 역할을 해왔습니다. 지난해 출시된 대형 모델 o1-pro, Sora Turbo는 물론 동영상 모드, 대화 중단 등의 다양한 기능들, 심지어 월 200달러의 높은 가격 책정까지, OpenAI의 모든 발표회는 AI 애호가들에게 새로운 충격과 새로운 아이디어를 가져다주었습니다.
이제 OpenAI가 2024년에 발표한 주요 업데이트를 함께 살펴보며 대형 모델의 진화 과정을 목격해 보겠습니다!
1월
GPT 스토어: 사용자가 구축한 개인화된 채팅봇(GPTs)을 게시하고 작성, 생활 방식, 교육 등의 카테고리로 검색할 수 있습니다.
가디언 도구(선거 관련): OpenAI는 정책을 업데이트하여 ChatGPT, DALL-E 등 도구의 사용자와 제작자가 이를 사용하여 후보자나 지방 정부를 사칭하는 것을 금지했습니다. 사용자도 이러한 도구를 선거 활동이나 로비에 사용할 수 없으며, 투표를 방해하거나 투표 과정을 왜곡할 수 없습니다.
인라인 태깅: 사용자가 채팅창에 "@"를 입력하면 GPT 언급 기능이 활성화되어 사용 가능한 GPT 모델 목록이 표시됩니다. 사용자는 한 번의 대화에서 여러 AI 모델을 통합하고 상호 작용할 수 있습니다.
음성 응답 읽기(모바일 앱): 응답 내용의 음성 읽기 기능을 추가하여 사용자가 정보를 더 편리하게 얻을 수 있습니다.
GPT 자체 신고 프로세스: 사용자가 GPT 사용 중 겪은 문제를 직접 신고할 수 있습니다.
팀 계획: ChatGPT 플러그인의 베타 버전 서비스가 중단됩니다.
2월
기억 기능(Sunshine) 출시: 과거 대화에 대한 모델의 기억력을 강화하여 대화의 일관성을 높이고 사용자의 상황과 요구를 더 잘 이해할 수 있습니다.
새로운 외관(Hedgehog) 출시
피드백 기능: GPT에 대한 사용자 의견과 피드백 메커니즘을 추가하여 사용자가 다양한 GPT에 대해 평가와 제안을 할 수 있도록 하여 개선을 촉진합니다.
저자 인증: GPT 생성자의 개인 프로필에 소셜 인증 기능을 도입하여 생성자의 신뢰도와 콘텐츠의 권위성을 높입니다.
Sora 출시: 간단한 텍스트 설명만으로 최대 1분 길이의 고품질 동영상을 빠르게 생성할 수 있으며, 사용자 지시를 더 잘 따르고 사실적인 시각 효과와 복잡한 장면, 다중 캐릭터 상호 작용, 특정 유형의 동작 등을 포함합니다.
다크 모드와 라이트 모드: 인터페이스의 시각적 효과를 최적화하여 다양한 사용 환경과 사용자 선호도에 적응합니다.
GPT 버전 기록: 사용자가 GPT의 반복 변화를 이해하고 추적할 수 있습니다.
3월
사용자 정의 명령(GPT-4): 사용자는 시스템 수준에서 ChatGPT에 대한 개인 배경 정보와 응답 형식 요구 사항 등을 사용자 정의할 수 있습니다.
DALL·E 3 controls (style & aspect ratio), editor & inpainting: 사용자에게 다양한 사전 정의된 스타일 옵션을 제공하며, 자연어 프롬프트를 사용하여 지정된 영역을 미세 조정하여 요소를 추가, 제거 또는 수정할 수 있습니다.
읽기(웹): 자동으로 읽고 있는 텍스트의 언어를 감지하고 해당 언어로 읽기를 제공하며 5가지 다른 음성을 제공합니다.
수익 계획: GPT 사용량에 따라 개발자와 수익을 공유하여 개발자에게 더 나은 GPT 서비스를 제공할 수 있는 새로운 수익 기회를 제공합니다.
4월
비계정 액세스: ChatGPT를 더 편리하게 사용할 수 있지만 GPT-3.5 무료 버전만 사용 가능하며 DALL-E 3 등 고급 기능은 계정이 필요합니다.
데이터 제어 v2: 사용자는 채팅 기록을 보는 것에 영향을 주지 않고 자신의 데이터를 모델 교육에 사용할지 선택할 수 있습니다. 모바일 음성 데이터 옵션이 추가되었으며 기본적으로 비활성화되어 있습니다.
도메인이 chatgpt.com으로 통일되어 브랜드와 서비스 진입점이 일원화되었습니다.
GPT-4 Turbo 출시: GPT-4보다 생성 속도가 2배 빠르고, 문맥 창이 128k 토큰까지 확장되었으며 가격은 1/3 수준입니다.
5월
무료 사용자도 GPT-4o-mini와 GPT-4o 등 기본 대화 모델을 선택할 수 있어 자신의 요구에 맞게 대화 모델을 사용자 정의하여 효율성과 일관성을 높일 수 있습니다.
연결된 앱: ChatGPT Plus, 팀 및 기업 사용자만 해당되며 Google Drive와 Microsoft OneDrive의 파일을 직접 ChatGPT에 업로드하여 분석하고 처리할 수 있습니다.
macOS 시스템 사용자를 위한 데스크톱 애플리케이션이 출시되었습니다.
GPT-4o가 출시되었으며 멀티모달 기능을 갖추어 텍스트, 오디오, 시각 등 다양한 모달리티의 정보를 동시에 처리할 수 있습니다. 음성 대화 분야에서 탁월한 성능을 보이며 자연스럽고 유창하게 감정을 표현하고 이해할 수 있습니다. 50개 언어를 지원하며 API 가격이 더 저렴하고 성능이 2배 향상되었으며 속도 제한도 5배 높아졌습니다.
ChatGPT 인터페이스가 Fruit Juice로 재설계되었습니다.
사용자는 동일한 프롬프트에 대해 다른 모델로 다시 생성된 답변을 볼 수 있습니다.
더 이상 "Sky" 음성 옵션을 제공하지 않으며 그 이유는 공개되지 않았습니다.
사용자는 대화 진행 상황과 요구에 따라 동일한 대화에서 모델을 전환할 수 있어 대화의 유연성과 효과가 향상되었습니다.
무료 사용자도 이전에는 유료 사용자만 사용할 수 있었던 인터넷 액세스, 이미지 업로드 및 분석, 차트 생성, 고급 데이터 분석, 메모리 기능 활성화, GPT 스토어 액세스 등의 도구와 GPT를 사용할 수 있습니다.
6월
2024년 WWDC에서 애플은 OpenAI와의 협력을 발표하여 ChatGPT를 Siri에 통합했습니다. 사용자 요청은 OpenAI에 저장되지 않으며 사용자 IP 주소가 모호하게 처리되고 ChatGPT 계정 연결 여부를 선택할 수 있습니다.
이전에 ChatGPT Plus 사용자에게만 제공되던 macOS 데스크톱 애플리케이션 Sidekick을 모든 사용자가 사용할 수 있게 전환했습니다. 애플리케이션 내에서 스크린샷을 찍고 GPT-4o와 상호 작용하여 코드 조각을 이해하거나 복잡한 차트를 해석할 수 있습니다.
7월
GPT-4o mini(Chive)가 출시되었습니다. GPT-4o보다 매개변수가 적으며 API 지원 토큰 길이는 128k, 16k입니다. 가격은 GPT-3.5 Turbo보다 60% 이상 저렴하며, OpenAI의 첫 번째 "지시 계층 구조" 보안 전략을 사용하는 AI 모델입니다. 즉, 시스템이 사전 설정된 명령을 우선 실행하여 악의적인 사용자가 모델에 불
8월
GPT-4o의 비디오 및 오디오 기능을 기반으로 한 Advanced voice(gpt-4o-s2s)는 사용자의 감정을 인식하고 반응할 수 있어 더 자연스럽고 실시간의 대화 경험을 제공하며, 사용자가 언제든 대화를 중단할 수 있습니다.
무료 사용자는 매일 DALL・E 3로 2장의 이미지를 생성할 수 있습니다.
모델이 기억할 수 있는 토큰의 최대 길이가 8k로 늘어나, 긴 텍스트와 복잡한 대화를 처리할 때 상황 정보를 더 잘 유지할 수 있어 답변이 불완전하거나 이전 내용을 잊는 문제를 해결할 수 있습니다.
Starter Prompts v2: 더 업데이트되고 풍부한 시작 프롬프트를 제공하여 사용자가 더 높은 품질의 질문과 요청을 할 수 있도록 안내합니다.
ChatGPT는 Google Drive와 Slack과의 새로운 동기화 커넥터 개발을 발표했으며, 사용자는 문서 내용에 seamless하게 접근할 수 있어 팀 효율성이 향상될 것입니다.
9월
OpenAI는 ChatGPT의 고급 음성 모드를 업데이트하여 비디오와 화면 공유 기능을 추가했습니다. 다양한 억양과 톤을 이해하고 정확하게 텍스트로 변환할 수 있으며, 실시간 번역 기능도 지원하여 국제 사용자 간 의사소통이 편리해졌습니다.
OpenAI는 o1-preview를 출시했습니다. 이는 법률 분석, 학술 연구, 복잡한 의사결정 등 고도의 추론이 필요한 작업을 위해 설계되었으며, 이미지, 오디오 등 다양한 데이터 형식을 처리할 수 있습니다. 개발자는 구체적인 비즈니스 요구에 따라 모델을 높게 맞춤화할 수 있어 전자상거래 제품 추천, 교육 과정 설계 등에 활용할 수 있습니다.
o1-mini는 비용이 약 80% 저렴하여 계산 자원이 제한적이지만 구조화된 추론 능력이 필요한 환경에 적합하며, 수학 및 프로그래밍과 같은 기본 추론 작업에서 뛰어난 성능을 보입니다.
두 가지 새로운 단축 명령어가 추가되었습니다: "/picture"로 DALL-E 모델을 호출하여 이미지를 생성할 수 있고, "/search"로 사용자 입력을 검색 쿼리로 변환할 수 있습니다.
10월
macOS와 Windows 데스크톱 버전에 고급 음성 기능이 출시되어, 사용자가 모델의 음성 스타일, 속도 등을 사용자 정의할 수 있습니다.
GPT-4o 기반의 캔버스 기능(gpt-4o-canmore)이 출시되어, 사용자가 그림, 마인드맵, 흐름도 등을 그릴 수 있습니다. 개발자를 위한 시각화 코드 구조 도구도 제공되어 소프트웨어 아키텍처나 함수 구조를 캔버스에 그릴 수 있습니다. 또한 사용자는 텍스트를 정리하고 문서 구조를 드래그앤드롭하며 주석을 추가할 수 있고, 브레인스토밍을 통해 핵심 포인트를 정리하고 슬라이드를 만들 수 있습니다.
사용자는 채팅 기록에서 특정 내용, 질문, 답변 등을 빠르게 검색할 수 있습니다(Fanny Pack).
11월
ChatGPT 웹 버전의 유료 사용자는 고급 음성 기능을 사용할 수 있으며, 사용자의 미묘한 억양과 속도 차이를 인식할 수 있습니다. 사용자는 특정 리듬, 발음 명확성, 느린 속도, 정기적인 이름 언급 등 사용자 정의 명령어를 설정할 수 있습니다.
Windows 버전의 데스크톱 애플리케이션(Sidetron)은 음성 입력, 화면 캡처, 로컬 파일 업로드 등을 지원합니다.
macOS 시스템의 ChatGPT 데스크톱 버전은 Xcode, VSCode, TextEdit 등 IDE와 다양한 편집기에서 ChatGPT를 호출하여 코드 설명 및 오류 해결을 받을 수 있으며, 터미널 등 다른 애플리케이션과도 연동됩니다.
12월
고급 음성 모드에 비디오와 화면 공유 기능이 추가되어, ChatGPT가 사용자의 작업과 표시된 내용을 볼 수 있어 온라인 회의, 원격 협업, 온라인 교육 등에 활용할 수 있습니다.
캔버스에서 사용자가 직접 Python 코드를 실행할 수 있어, 데이터 과학자와 분석가들에게 더 편리한 데이터 분석 및 처리 환경을 제공합니다.
OpenAI는 o1 정식 버전을 출시했습니다. 속도가 50% 향상되었고 심각한 오류 발생 확률이 50% 감소했습니다. o1-pro는 ChatGPT Pro 구독자만 사용할 수 있으며, 월 200달러의 비용이 발생하지만 더 깊이 있는 사고와 높은 품질의 답변을 제공합니다.
OpenAI는 o3 모델을 선보였습니다. ARC-AGI 벤치마크에서 75.7%의 높은 점수를 받아 강력한 추론, 코딩, 수학 문제 해결 능력을 보였으며 일부 부분에서는 인간 전문가를 능가했습니다. o3-mini-preview는 상대적으로 더 비용 효율적이며, o3-mini 정식 버전은 2025년 1월 말 출시 예정입니다.
o3와 o3-mini 모델의 안전성과 신뢰성을 보장하기 위해 OpenAI는 내부 평가와 외부 연구 프로그램을 결합한 다층 보안 테스트 방법을 사용하여, 잠재적인 보안 위험과 취약점을 발견하고 시정할 예정입니다.
OpenAI는 Sora Turbo를 출시했습니다. 이는 텍스트, 이미지, 비디오 입력을 지원하며 최대 1080p 해상도, 최대 20초 길이의 비디오를 생성할 수 있습니다. 와이드스크린, 세로, 정사각형 등 다양한 형식을 지원하며, 5가지 창의적 도구를 제공하여 사용자가 각 프레임의 내용을 정밀하게 제어하고, 비디오 요소를 대체/삭제/재구성하며, 루프 클립을 만들 수 있습니다.
참고 자료:
https://x.com/btibor91/status/1873391215980527840
본 기사는 WeChat 공众号 "新智元"에서 발췌되었으며, 저자는 新智元, 36氪의 허가를 받아 게재되었습니다.





