GPT-4o 출시됐지만 AI는 버블 초기 단계 진입

avatar
36氪
05-20
이 기사는 기계로 번역되었습니다
원문 표시

GPT-4o는 강력하지만 세계를 전복시킬 정도는 아닙니다.

얼마 전 OpenAI는 GPT-4o("o"는 "omni"를 나타냄)를 출시했습니다. 간단히 말해서 텍스트, 오디오 및 이미지의 조합을 입력으로 받아 텍스트, 오디오 및 이미지의 조합을 생성할 수 있습니다. 그리고 놀라운 응용 프로그램이 많이 있습니다.

GPT-4o의 주요 업그레이드 포인트는 텍스트, 오디오 및 이미지의 모든 입력을 개방하고 중간 변환 없이 서로 직접 생성할 수 있다는 것입니다. 또한 GPT-4o는 음성 지연을 크게 줄이고 오디오에 응답할 수 있습니다. 232밀리초 이내로 입력되며, 평균 320밀리초로 대화 중 인간의 응답 시간과 비슷합니다.

GPT-4o는 시각적 AI 기능을 통해 카메라에서 일어나는 일을 이해할 수 있을 뿐만 아니라 음성을 통해 이전 버전의 ChatGPT와 상호 작용하여 더욱 풍부하고 흥미로운 상호 작용을 할 수도 있습니다. 또한 중단 및 대화 중단을 지원하고 컨텍스트 메모리 기능도 있습니다.

더욱이 GPT-4o는 대부분의 사용자에게 GPT-4보다 훨씬 더 큰 이점을 제공합니다. 즉, 무료입니다. GPT-4 수준의 인텔리전스를 경험하고, 모델과 네트워크로부터 응답을 받고, 데이터를 분석하고 차트를 만들고, 찍은 사진에 대해 채팅하고, 요약용 파일 업로드, 작성 또는 분석 도움말, GPT 및 GPT Store 사용, 메모리로 더 많은 구축 경험해 보면 이러한 기능은 모두 무료로 제공됩니다. GPT-4 Plus 버전은 높은 수수료, 번거로운 결제, 높은 사용 기준치 때문에 대부분의 사람들에게 금지되어 있다는 것을 알아야 합니다. GPT-4o의 가장 큰 특징은 더 많은 사람들이 사용할 수 있다는 것입니다.

그러나 현재는 GPT-4 Plus 버전만 사용할 수 있습니다. 다른 버전은 나중에 열어야 하며 무료 GPT-4o 수가 제한되어 있으며 이후에는 GPT-3.5로 직접 변환됩니다.

업계 일부 사람들은 특히 예고편에서 OpenAI CEO 알트만이 "마법"이라는 단어를 사용했다고 믿고 있습니다. 그리고 다중 모드 기능의 관점에서 볼 때 GPT-4o의 기능은 이전 세대에 비해 크게 향상되지 않았습니다. GPT의 오랜 라이벌인 Anthropic의 Claude 3와 비교해도 GPT-4o와 GPT-4 사이에는 모델 성능 면에서 본질적인 차이가 없다고 할 수 있습니다.

따라서 GPT-4o의 출시는 선두주자에 가깝고 선도적인 자세를 보이고 있으며, 인기를 유지하고 구매 수요를 자극하기 위한 방법이기도 합니다.

흥미롭게도 GPT-4o가 출시된 지 불과 24시간 만에 구글도 제품을 출시해 경쟁에 도전하는 듯한 모습을 보였다. 구글 CEO 순다르 피차이(Sundar Pichai)는 오픈 AI(Open AI)를 포괄적으로 둘러싸며 '패밀리 버킷(Family Bucket)' 수준이라고 할 수 있는 구글과 AI를 결합한 수십 가지 제품을 출시했다. 여기에는 200만 개의 토큰 긴 텍스트를 지원하는 Gemini 1.5 Pro 및 Gemini 1.5 Flash, Sora에 대해 벤치마킹된 Veo, 오픈 소스 모델 Gemma 2, 생성 검색을 지원하는 AI 개요, 6세대 TPU 등이 포함됩니다.

구글 CEO 순다르 피차이

전체 개발자 컨퍼런스의 가장 큰 하이라이트는 구글이 카메라를 통해 사물과 코드, 다양한 사물을 인식할 수 있는 AI 음성 비서 아스트라(Astra) 출시다. 라이브 시연 영상에서 사용자는 아스트라에게 무언가 소리가 나면 말해달라고 요청했고, 어시스턴트는 스피커에서 소리가 나는 것을 볼 수 있다고 응답했다. 사과의 번쩍임에 대해 아스트라는 안경 옆에 있다고 정확하게 답할 수 있었다. Astra 외에도 Google은 Gemini를 기반으로 하는 다양한 범용 AI 에이전트 하위 시리즈 제품을 출시했습니다. 예를 들어 오디오용 NotebookLM, 음악용 Music AI Sandbox, 비디오용 Veo, 이미지용 Imagen 3는 OpenAI에서 출시한 GPT-4o, Dall-E 및 Sora를 직접 벤치마킹합니다.

그러나 문제는 OpenAI와 유사합니다. 현재 개발자가 추론 기능에서 다중 모드 기능에 이르기까지 더 많은 기본 및 킬러 애플리케이션을 구축하는 것만으로는 충분하지 않습니다. 두 회사는 서로를 쫓는 산수 수준의 경쟁에 가깝기 때문에 당연히 세상을 놀라게 하는 애플리케이션을 기여하기는 어렵습니다.

머스크가 기자회견을 본 후 GPT-4o 시연으로 인해 "불편하고 당혹스럽다"고 말한 것도 당연합니다. Andrej Karpathy는 또한 Musk의 지지를 받아 매우 차분한 어조로 기술 요약을 제공했습니다. 그들이 발표한 것은 텍스트, 오디오, 비디오의 세 가지 양식을 동일한 신경망에서 결합하고 동시에 처리하는 모델입니다.

대형 모델도 예산에 민감해야 합니다.

지난해 생성 AI와 대규모 언어 모델의 기술 열풍이 글로벌 기술계를 휩쓸었습니다. 기술 대기업과 신흥 유니콘 모두 더 크고 강력한 모델을 개발하기 위해 서두르고 있으며, 이로 인해 AI 칩을 둘러싼 군비 경쟁이 촉발되었고 AI 무기 딜러인 Nvidia가 전년도보다 340억 달러 더 많은 수익을 올렸습니다.

그러나 올해의 상황은 분명히 그다지 낙관적이지 않으며, 실용적이고 신중한 스타일이 기술계 전체에 퍼졌습니다. 기술 매체 더인포메이션(The Information)은 “마이크로소프트, 아마존, 구글을 포함한 클라우드 벤더와 이 기술(제너레이티브 AI라고 함)을 판매하는 다른 기업들이 기대치를 낮추고 있다”고 보도했다. 이미 어떤 사람들은 생성적 AI가 터뜨린 거품이 너무 클 것이라고 걱정하고 있습니다. 미래이지만 지금은 아닐 수도 있습니다. 마치 인터넷이 지금 1조 달러 규모의 사업이 되었지만 수천 명의 사람들이 이를 막지는 못하는 것과 같습니다. 그것을 사용하여 희년에 터진 닷컴 버블의 폭발적인 종말.

현재 OpenAI의 지난해 수익에는 두 가지 버전이 있습니다. The Information에서는 2023년 마지막 달의 연간 수익이 16억 달러라고 밝혔고, Financial Times에서는 20억 달러의 수치를 제시했습니다. 이 소득 수준은 확실히 AI 업계 최초의 계층이지만, 샘 알트만의 야심 찬 계획은 말할 것도 없고 마이크로소프트가 OpenAI에 제공하는 연간 수수료 10억 달러 이상에 비하면 여전히 적은 금액이다. 7조 달러에 달하는 칩을 소유하려면 소프트웨어와 하드웨어를 공장에 통합해야 합니다. 상장 OpenAI의 투자 문제가 해결될 수도 있겠지만, 비영리 기관으로서 OpenAI를 정상적인 민간 영리 기업으로 전환하는 데는 여전히 문제가 많아 단기적으로는 현실적이지 않습니다.

2023년 유니콘으로 승격한 미국의 생성 AI 기업 상당수가 이상을 실현하지 못하는 딜레마에 빠졌다. 한때 상위 3대 AI 유니콘 중 하나로 꼽혔던 스타트업인 Inflection의 공동 창업자 2명이 Microsoft로 전환했습니다. 그들이 창업자를 포함한 Inflection의 직원 대부분을 빼앗았기 때문에 Microsoft는 Inflection에 해당 모델을 인수하기 위해 약 6억 5천만 달러를 지불하기로 합의했습니다. Inflection의 투자자들에게 보상을 제공합니다.

인플렉션에 이어 2위를 차지한 또 다른 AI 유니콘 코히어(Cohere)도 융자 에 어려움을 겪는 것으로 알려졌다. 이 회사는 지난해 12월부터 평가액 60억 달러, 5억 달러 융자 모색해 왔지만 현재까지 확정된 거래는 없으며 지난해 6월 마지막 융자 라운드가 이뤄졌다. 대형 모델의 돈 소모율에 따르면, 스스로 혈액을 생산하지 못하는 이들 유니콘은 생존을 위해 6개월마다, 심지어 매 분기마다 새로운 융자 조달해야 할 것이다.

더욱 당황스러운 점은 이들 기업이 '다양한 면에서 선두를 달리고 있다'고 광고하고 있지만, 실제로는 그 격차가 작지 않다는 점이다. 더욱이 이들 기업은 기본적으로 수익성이 없고 자본소외 상태에 빠졌다. 후속 수혈이 부족한 점을 이해하는 것은 어렵지 않다.

Jinshajiang의 관리 파트너 Zhu Xiaohu는 대형 모델은 좋지 않은 비즈니스 모델이라고 믿습니다. 문제는 기술에는 별 차이가 없고, 3.5 등 각 세대의 기술은 수천만 달러, 4.0은 수억 달러, 5.0은 수십억 달러를 지출해야 한다는 점이다. 각 세대의 모델에 대해 다시 돈을 벌 수 있으며, 이를 통해 수익을 창출할 수 있습니다. 주기는 2~3년에 불과하며 이는 발전소의 주기보다 더 나쁩니다.

예를 들어 발전소는 기본적으로 인프라 투자 후 많은 돈을 투자할 필요가 없지만, 대형 모델은 2~3년마다 업그레이드하려면 더 많은 돈이 필요하고, 실현 주기는 2~3년에 불과할 수도 있다. 솔직히 말해서 이 비즈니스 모델은 매우 열악한 비즈니스 모델입니다.

따라서 국내외 AI 투자는 비용과 이익을 심각하게 고려해야 하는 단계에 진입했으며, AI가 최종 단계에 진입했다면 이 단계에서 OpenAI의 리더십 위치는 매우 중요해질 것입니다. 아직은 깨지지 않는 스타트업으로서는 언제든 '죽음의 문턱'에 놓일 수 있다고 말했다.

지난해 '궁전'은 아직 끝나지 않았다

지난 11월 Ilya는 다른 이사회 구성원 3명과 함께 회사의 유명 CEO인 Sam Altman을 사임하도록 강요했지만 나중에 후회를 표명했습니다. 이번 분쟁은 OpenAI의 방향을 두고 의견 차이가 있었던 것으로 알려졌습니다. Ilya는 Altman이 보안 노력을 희생하면서 AI 제품 출시를 서두르는 것에 좌절했습니다. Altman은 축출된 지 불과 5일 만에 OpenAI로 돌아와 자신의 통제권을 다시 주장하고 점점 더 강력한 기술을 계속 추진하면서 일부 비판자들을 걱정하게 했습니다. Ilya는 OpenAI의 직원으로 남아 있었지만 직장에 복귀하지 않았습니다.

샘 알트만(왼쪽), 일리아 서츠케버(오른쪽)

올해 5월 17일, 회사의 공동 창립자이자 수석 과학자인 Ilya Sutskever가 화요일에 사임을 발표한 지 불과 몇 시간 만에 Super Alignment 팀의 리더 중 한 명인 Jan Leike도 소셜 플랫폼 X에 사임을 발표했습니다.

OpenAI Super Alignment의 책임자인 Jan Leike는 사임 이유와 추가 내부 정보를 공개했습니다. 첫째, 해시레이트 부족했고, 초정렬 팀에 약속한 20%도 부족해 팀이 대세를 거스르게 됐지만 점점 어려워졌다. 둘째, 보안은 심각하게 고려되지 않으며 AGI의 보안 거버넌스 문제는 "빛나는 제품" 출시만큼 우선순위가 높지 않습니다.

얀 레이케

먼저 "정렬"이 무엇을 의미하는지 설명하겠습니다. GPT 대형 모델의 생성은 블랙박스 메커니즘이므로 생성되는 콘텐츠는 무작위이며 인간의 가치에 부합하지 않는 것을 생산하는 것이 불가피합니다. 그래서 그들은 인간의 성과에 필적하는 자동 정렬 연구원을 구축하고 관련 작업을 최대한 자동화 시스템에 오프로드하는 동시에 인공 지능 시스템의 동작이 인간의 가치 및 목표와 일치하도록 보장하고 있습니다.

OpenAI의 전 엔지니어링 책임자이자 ChatGPT, GPT-4, DALL·E 및 API 출시를 주도한 Evan Morikawa도 Alignment 팀의 사람들만이 떠나고 합류할 것이라고 밝혔습니다. 전 보스턴 다이내믹스(Boston Dynamics)의 선임 로봇 공학자 Andy Barry와 Deep Mind의 연구 과학자인 Pete Florence와 Andy Zeng은 함께 새로운 프로젝트를 진행하고 있으며 "이것이 글로벌 규모의 AGI를 달성하는 데 필요하다"고 믿고 있습니다.

일부 네티즌들은 OpenAI가 앞으로의 행보의 안전을 보장하기보다는 상용화를 위해 계속 돈을 태우려는 것처럼 들린다고 말했습니다. 그들은 영웅이 아니라 거물이 되고 싶어합니다.

물론 울트라맨은 Jan Leike의 긴 글을 포기하지 않을 것입니다. 그는 곧 "반격"을 발표했습니다. "OpenAI 정렬 연구 및 안전 문화에 기여한 Jan Leike에게 매우 감사하고 그가 떠나는 것을 보니 매우 슬프습니다. 그의 말이 맞습니다. 우리는 아직 할 일이 많습니다. 앞으로 며칠 안에 더 긴 기사를 올리겠다고 약속합니다.” 다른 일이 없다면 앞으로 며칠은 짧은 에세이가 끊임없이 바뀌면서 작년과 같을 것입니다. 진실이 무엇인지에 관해서는 아마도 그것에 관련된 소수의 사람들 만이 옳고 그름을 알고있을 것입니다. 사실 네티즌들에게는 옳고 그름이 그다지 중요하지 않습니다.

중요한 것은 이번 '사퇴 물결'은 지난해부터 내부 갈등이 해소되지 않고 대신 숨은 이적설이 터졌다는 점을 보여준다는 점이다. 최종 분석에서 Ilya Sutskever와 Sam Altman 사이의 논쟁은 주로 기술 근본주의자와 시장 급진주의자 사이의 갈등입니다. Jan Leike는 다음과 같이 말했습니다. "보안, 모니터링, 적대적 견고성, 수퍼 정렬, 기밀성, 사회적 영향 등과 같은 주제에 초점을 맞춰 차세대 모델을 준비하는 데 더 많은 대역폭을 투자해야 한다고 생각합니다. 이러한 문제는 매우 중요합니다. 해결하기 어렵고 아직 올바른 방향으로 가고 있지 않은 것 같습니다.”

그러나 샘 알트만은 AI가 어떻게 세상을 뒤흔들고 놀라운 제품을 만들어낼 것인지 늘 강조해 왔다. 그는 기술 발전을 가속화하기 위해 미친 듯이 칩을 축적하고 심지어 자신의 칩 공장도 짓고 있다. 저자는 이 둘 사이의 논쟁이 거의 모든 AI 실무자가 반드시 고려해야 할 사항이라고 믿습니다. 기술은 확실히 사회적 생산성의 발전을 촉진할 수 있지만 일련의 보안 문제와 리스크 가져올 것입니다.

샘 알트만은 실제로 용병이 아닐 수도 있고 돈만 벌고 싶어할 수도 있으며, AI 보안에 대한 그의 강조가 반드시 거짓말은 아닙니다. 하지만 관리자로서 회사의 장기적인 운영을 고려해야 합니다. 균형을 잡을 수 있다면 우선 순위를 정해야 합니다. 현재 AI 정렬에 필요한 해시레이트 적지 않으며 정렬 후 AI 성능이 크게 저하됩니다. 이는 Sam Altman이 정렬 팀에 만족스러운 정렬을 제공할 수 없는 중요한 이유 중 하나일 수 있습니다. 물론 실제 상황은 더 복잡할 수도 있지만, 기술 생산성이 높아지는 다음 시대에는 충분한 상업적 이익이 없으면 모든 것이 공허한 이야기가 될 것입니다.

OpenAI가 정렬을 완전히 포기하거나 이에 주의를 기울이지 않는다면 향후 GPT-5에 큰 리스크 될 것이며 상용화가 갑작스럽게 중단될 수도 있습니다. 간단히 말해서, 우리는 모든 문제를 사회에 맡기는 대신 더 좋고 개방적인 OpenAI가 등장하기를 바랍니다.

중국 빅모델은 열등감을 느낄 필요가 없다

지난 한 달 동안 국내에서 생산된 대형 모델들이 시장에 미국을 따라잡았다는 인상을 주었고, 스타트업에서도 밝은 점이 많이 나왔다. Dark Side of the Moon은 컨텍스트 길이를 200만 개로 확장했습니다. Talkie의 일상은 Character.AI에 가깝고, U-ViT 아키텍처는 Sora보다 먼저 제안되었습니다. 성능을 보장한다는 전제 하에 비용은 백만 토큰 입력당 1위안으로 절감됩니다.

일부 기사에서는 국내 AI는 모두 롤링 가격이 있고 해외 롤링 기능만 사용 가능하다고 하는데 이는 사실 객관적이지 않습니다. 추론의 필요성은 이미 현실입니다. 지난해 말 출시 이후 약 17,000명의 알리바바 중소 대외 무역 상인이 AI 비즈니스 도우미를 구독했으며 수백만 개의 제품이 출시되었으며 검색량이 거의 40% 증가했습니다. ByteDance는 beanbao 모델을 Douyin, Feishu 및 기타 업무 에 통합하여 하루 평균 1,200억 개의 토큰 텍스트를 처리하지만 매개변수 및 기타 세부 정보를 공개하지 않았습니다. 아마도 Tiktok과 유사한 추천 알고리즘을 사용하기 때문일 것입니다. Baidu Wenxin의 대형 모델은 하루 2,500억 개의 텍스트 토큰을 처리하며, 일일 평균 통화량은 작년 말의 4배에 이릅니다. Tencent는 회의, 독서 및 게임 고객 서비스에 Hunyuan 대형 모델을 사용했으며 AI 지원 광고 서비스의 클릭률과 거래량도 상승 있습니다.

오픈소스 대형 모델 Tongyi Qianwen은 해외에서 인기를 끌었고, 너무 많은 외국인들이 Qwen 대형 모델(Tongyi Qianwen)을 논의하고 사용하고 있습니다.

Tongyi는 1,100억 개의 매개변수 오픈 소스 모델 Qwen1.5-110B를 출시했으며, 이 모델은 MMLU, TheoremQA, GPQA 등의 벤치마크 평가에서 Meta의 Llama-3-70B 모델을 능가했으며 오픈 소스인 Open LLM Leaderboard에도 등재되었습니다. HuggingFace가 출시한 대형 모델 순위에서 Qwen1.5-110B가 순위권에 돌입하며 Tongyi 오픈 소스 시리즈가 업계 최고의 경쟁력임을 다시 한 번 입증했습니다.

어떤 사람들은 실행 점수에 대해 의문을 가질 수 있지만 C-end에 대한 모든 기능과 무료에 집중한다는 일반적인 의미는 정말 좋습니다. 동시에 Tongyi Qianwen APP도 'Tongyi APP'으로 업그레이드되어 텍스트 그래픽, 지능형 코딩, 문서 분석, 오디오 및 비디오 이해, 시각적 생성 등의 풀스택 기능을 통합하여 '모든 기능을 갖춘 앱'이 되는 것을 목표로 하고 있습니다. 라운드 AI 도우미'를 사용자에게 제공합니다.

마지막에 쓰세요

오픈AI와 국내 AI 기업 모두 금융자본과 산업자본의 운용이 불가분의 관계에 있다. 너무 상용화에 배타적인 것은 좋지 않지만, 안전성과 효율성의 균형을 이룰 수 있는 순익도 있어야 한다. 이렇게 하면 기술이 더 나은 미래를 만들 수 있습니다. 역사적으로 중요한 기술 발전은 금융 거품을 동반하는 경우가 많았는데, 이는 신기술 홍보의 자연스러운 부분입니다. AI에 거품이 있다는 것은 무서운 것이 아니다. 무서운 것은 기술의 기반이 탄탄하지 않고, 현실의 다양한 문제를 해결하기 어렵다는 점이다. 결국 '모든 것이 거품이 된다'는 것이다. ”

참고자료:

OpenAI, GPT-4o 출시 출처: 박창주

GPT-4o 조기 액세스 소스: DoNews

GPT-4o는 좋지만 가장 큰 하이라이트는 무료 소스인 ZAKER입니다.

빅모델 버블이 다가오고 있는가? 출처: NewNewThing

중국과 미국의 거대 기업 간 AI 격차의 원인: 불완전한 연구

인류를 지키는 OpenAI 팀이 무너지다 출처: Silicon Star Pro

OpenAI의 베테랑 과학자들이 모두 떠났습니다. 출처: AI Frontline

Ilya는 OpenAI Insider 노출을 떠납니다. 출처: Qubits

Tongyi Qianwen 2.5 공식 출시 출처: Alibaba Cloud

이 기사는 WeChat 공개 계정 "Chief Business Review"(ID: CHReview) 에서 가져온 것입니다. 저자: Dojing Guantian, 36 Krypton은 게시 권한을 받았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트