Grok 4.1의 새로운 기능: AI 환상 3배 감소, 감정 이해 및 창의적 글쓰기 완전 업그레이드

avatar
ABMedia
11-18
이 기사는 기계로 번역되었습니다
원문 표시

xAI는 11월 17일 최신 모델인 Grok 4.1이 grok.com, Twitter(X), iOS 및 Android 앱을 포함한 모든 사용자에게 공식적으로 출시되었다고 발표했습니다 . xAI는 이번 업그레이드가 이전 Grok 4의 추론 능력과 안정성을 유지하면서도 더 강력한 감정 이해, 더 자연스러운 성격 표현, 더 높은 창의성, 더 낮은 환각률 등 "실제 사용성"에 중점을 두었다고 밝혔습니다.

비밀 테스트에서 65%에 가까운 승률을 기록한 Grok 4.1이 정식 출시될 예정이라고 확인되었습니다.

xAI는 11월 1일부터 11월 14일까지 2주간 비밀 테스트를 실시하여 Grok 4.1 베타 버전의 일부를 Grok.com, X 및 모바일 앱의 실제 트래픽으로 가져와서 "블라인드 테스트 비교"를 통해 이전 Grok 4 모델과 직접 비교했습니다.

xAI는 블라인드 테스트에서 Grok 4.1이 실제 트래픽에서 선호도 지수 64.78%를 기록하며 Grok 4를 크게 앞지르는 성능을 보였다고 밝혔으며, 11월 17일부터 모든 사용자에게 공식 출시될 것이라고 발표했습니다. 또한, 이제 모든 사용자가 Grok 4.1을 사용할 수 있다고 밝혔습니다. 사용자가 자동 ​​모드를 활성화하거나 모델 메뉴에서 수동으로 선택할 경우, Grok 4.1이 자동으로 사용됩니다.

Grok 4.1: 세 가지 주요 기술 하이라이트

Grok 4.1의 기술적 주요 내용 1: 완전히 새로운 강화 학습 아키텍처를 통해 응답이 보다 자연스럽고 인간과 유사해졌습니다.

Grok 4.1의 핵심 업그레이드는 Grok 4와 동일한 "대규모 강화 학습 인프라"를 사용하는 데서 비롯되지만, 이번에는 모델이 더 큰 규모에서 자동으로 응답을 최적화할 수 있도록 하는 새로운 방법을 도입했습니다. 이 훈련은 톤, 페르소나 일관성, 정서 상호작용, 의도 이해와 같이 데이터만으로는 직접 평가할 수 없는 검증 불가능한 응답 품질에 중점을 둡니다.

이 문제를 해결하기 위해 xAI는 보상 모델로 "첨단 추론 모델"을 채택했습니다. 이를 통해 심층 추론 기능을 갖춘 AI는 Grok 4.1의 응답을 자동으로 평가하고, 대량 비교를 통해 무엇이 더 좋고 인간이 기대하는 답변인지 학습하여 그에 따라 조정할 수 있었습니다. 그 결과, Grok 4.1은 원래의 추론 능력과 안정성을 유지하면서 어조, 성격, 정서, 그리고 상호작용의 자연스러움 측면에서 상당한 개선을 보였습니다.

Grok 4.1 기술적 하이라이트 2: 정서 이해와 창의성이 크게 업그레이드되어 모든 블라인드 테스트 평가에서 최고 수준을 달성했습니다.

xAI는 또한 여러 테스트 결과를 공개했는데, 이를 통해 Grok 4.1이 여러 기능 테스트에서 상당한 개선을 이루었다는 것을 알 수 있습니다.

  • LMARaena 글로벌 블라인드 베타 게임 플랫폼에서:

    • Grok 4.1 Thinking은 1483개의 Elo 등급으로 세계 1위를 차지했습니다.

    • Grok 4.1 Non-Thinking은 1465 Elo 로 2위를 차지했으며, 다른 모델의 "전체 추론 모드"를 능가하기도 했습니다.

  • 정서 이해 테스트(EQ-Bench 3): 이 테스트는 45개의 도전적인 시나리오와 3회의 상호작용으로 구성되며, 클로드 소네(Claude Sonnet)는 3.7점을 부여했습니다. Grok은 4.1점을 부여하여 공감, 정서 통찰, 대인 관계 이해에서 상당한 향상을 보였습니다.

  • 創意寫作能力(Creative Writing v3):在32 題× 3 回合的寫作測試中,Grok 4.1 在創作風格、敘事品質、故事流暢度上都有更高分數,官方並展示多個樣本回覆。

전반적으로 Grok 4.1은 추론 능력을 향상시킬 뿐만 아니라, "감정적 상호작용"과 "창의적 능력"에서도 상당한 업그레이드를 보여줍니다.

그림에서 볼 수 있듯이 Grok 4.1은 추론 모델, 정서 이해, 창의적 글쓰기 부문의 전체 순위에서 상위 3위에 올랐습니다.

(참고: Elo는 체스에서 원래 사용된 Elo 랭킹 시스템을 사용하여 모델 응답의 질을 평가하는 글로벌 블라인드 테스트 플랫폼 LMARaena에서 Grok 4.1의 파워 점수를 나타냅니다.)

Grok 4.1 기술 하이라이트 3: AI 환상이 3배 감소하고, 정보 출처의 신뢰성이 높아졌습니다.

일반적인 정보 검색 문제에 대해 xAI는 Grok 4.1에서 착시 현상이 현저히 감소한 것을 특히 강조합니다. 이전에는 Gork의 고속 모드(비추론)가 추론 깊이 부족으로 인해 착시 현상이 발생하기 쉬웠지만, xAI는 4.1 이후 학습 과정에서 이 문제를 명시적으로 해결했습니다. xAI의 검증 방법은 다음과 같습니다.

  • 우리는 사용자가 실제 상황에서 실제로 묻고 플랫폼에 실제로 나타나는 질문을 기반으로 샘플링 테스트를 진행합니다.

  • Grok 4.1과 이전 모델 간의 응답 차이를 비교해보세요.

  • FActScore로 성과를 평가합니다.

그 결과, 새 버전은 사실 검색 및 정보성 질문에 대한 답변 시 착각률을 크게 줄였으며 , 답변의 안정성과 신뢰성이 더욱 향상되었습니다. 이러한 결과로 Grok 4.1은 "빠른 답변" 및 "데이터 검색" 상황에서 이전 버전보다 더욱 실용적이고 정확해졌습니다.

그래프에서 볼 수 있듯이 Grok 4.1의 환각률은 12.09%에서 4.22%로 약 3배 감소했습니다. 사실 검증 점수(FActScore)도 9.89%에서 2.97%로 감소하여 Grok 4.1의 정확도가 크게 향상되었음을 보여줍니다.

(참고: FActScore는 500개의 실제 전기적 질문으로 구성된 공개 테스트로, 사실 발견, 판단 정확도, 답변 일관성 측면에서 모델의 성능을 평가하는 데 사용됩니다. 검증 사실 점수라고도 합니다.)

(2025년 최신 주류 AI 언어 모델(LLM) 5가지에 대한 종합 분석: 가격, 응용 프로그램 및 보안을 한눈에 파악)

리스크 경고

암호화폐 투자는 높은 리스크 수반합니다. 가격 변동이 심할 수 있으며, 원금 전액을 잃을 수도 있습니다. 리스크 신중하게 평가하시기 바랍니다.

이더 창시자 비탈릭 부테린은 11월 17일 Devcon에서 "코하쿠(Kohaku)" 프라이버시 프레임 를 처음으로 공개했습니다. 이더 재단(EF)과 여러 팀이 공동 개발한 이 프레임 이더 프라이버시 업그레이드를 추진하여 사용자에게 더욱 포괄적인 프라이버시 보호를 제공하는 것을 목표로 합니다. 비탈릭은 또한 이더 프라이버시 기술 측면에서 아직 뒤처져 있으며, 이제 집중적인 개선의 마지막 단계에 접어들고 있음을 인정했습니다.

코하쿠가 데뷔하고, 비탈릭이 이더 의 개인정보 보호 업그레이드 움직임을 시연합니다.

데브콘에서 비탈릭은 EF와 여러 개발자들이 공동 개발한 프라이버시 도구 프레임 인 "코하쿠(Kohaku)"를 처음으로 시연했습니다. 그는 이더 수년간 프라이버시 연구에 대량 투자를 해왔지만, "사용자가 자연스럽게 프라이버시 보호를 누릴 수 있도록 하는" 진정한 목표 달성까지는 한 걸음밖에 남지 않았으며, 지금이 바로 프라이버시 보호를 강화하기 위한 모든 노력을 기울여야 할 때라고 언급했습니다.

Kohaku는 개발자가 중앙 집중식 서비스에 의존하지 않고도 개인 정보 보호 기능을 갖춘 지갑을 직접 개발할 수 있도록 하는 오픈 소스 모듈 개인 정보 보호 및 보안 프레임 제공하는 것을 목표로 합니다. 향후 프레임 Mixnet, ZK 브라우저 및 기타 지갑을 위한 기본 개인 정보 보호 모드도 포함할 수 있습니다.

레일건과 프라이버시 풀이 처음 등장하면서 코하쿠의 기술적 기반이 공개됩니다.

Kohaku의 GitHub에 따르면 해당 프로젝트는 아직 개발 중이지만 이미 다음과 같은 몇 가지 중요한 개인정보 보호 모듈 포함되어 있습니다.

  1. 이더坊隱私協議Railgun:把公開資金「遮罩」起來,讓外人看不到資金流向,並透過零知識證明達成,可直接整合進錢包,讓用戶一鍵就能降低被追蹤的리스크。
  2. 새로운 개인정보 보호 도구인 Privacy Pools는 핵심 접근 방식으로 연관 목록을 사용하여 무고한 사람들이 "무죄 증명"을 제공할 수 있도록 하는 동시에 악의적인 행위자가 불법 자금을 섞는 것을 방지합니다.

이러한 도구는 Kohaku의 핵심 기반을 형성하여 사용자가 개인정보를 보호하면서 동시에 남용을 방지할 수 있도록 합니다.

Kohaku는 자금을 보호하여 지갑 개인 정보 보호를 입증하며, 개인 정보 보호 설정이 미리 설정된 지갑을 추진합니다.

시연에서 사용자는 Kohaku와 Railgun을 통합하여 자신의 계좌에서 공개적으로 보이는 자금을 마스킹하여 다른 사람이 거래를 추적할 수 없도록 하는 데 성공했습니다. Kohaku의 목표는 MetaMask와 Rainbow를 포함한 모든 이더 지갑이 "사전 설정 및 선택 가능" 개인정보 보호 모드를 지원하도록 하는 것입니다.

비탈릭은 개인정보 보호의 중요성을 강조하며, 개인정보 보호를 통해 사람들은 중앙집중형이나 탈중앙화 세력에 의해 자신의 행동이 지속적으로 감시당하는 것을 걱정하지 않고 원하는 대로 생활할 수 있다고 말했습니다.

EF는 개인정보 보호 기능을 포괄적으로 강화하기 위해 개인정보 보호팀을 구성합니다.

최근 몇 달 동안 이더 커뮤니티 여러 개인정보 보호 이니셔티브를 동시에 추진해 왔습니다. 지난달 이더 재단은 개인정보 보호를 이더 의 핵심 요소로 만드는 데 전념하는 47명의 연구원과 엔지니어로 구성된 "프라이버시 클러스터"를 설립했습니다.

또한, 기존 프라이버시 & 스케일링 익스플로레이션(PSE) 팀은 9월에 "이더리움 프라이버시 스튜어드(Privacy Stewards of Ethereum)"로 명칭을 변경하여 새로운 기술 탐색에서 "실제 프라이버시 문제" 해결로 초점을 옮겨 비공개 투표 및 기밀 DeFi와 같은 기능에 집중했습니다. 비탈릭은 또한 이더리움 사이퍼펑크 콩그레스(Ethereum Cypherpunk Congress)에서 이더 프라이버시 업그레이드 과정에 돌입했다고 밝혔습니다.

코하쿠의 주요 초점은 오픈 소스 모듈 로, 이를 이더 개인정보 보호가 사전 설정된 미래를 만드는 것입니다.

Kohaku는 아직 개발 중이지만, 현재 출시된 모듈 과 데모를 통해 핵심 방향을 확인할 수 있습니다.

  1. 전체 과정은 오픈 소스입니다.
  2. 모듈 디자인.
  3. 지갑은 언제든지 보호막을 활성화하여 악의적인 개인의 오용을 방지하고 일반 사용자를 보호하는 역할을 할 수 있습니다.

궁극적인 목표는 이더 사용할 때 개인 정보 보호를 자연스러운 상태로 만드는 것입니다.

리스크 경고

암호화폐 투자는 높은 리스크 수반합니다. 가격 변동이 심할 수 있으며, 원금 전액을 잃을 수도 있습니다. 리스크 신중하게 평가하시기 바랍니다.

마이크로소프트는 2025년 3분기 재무 보고서를 발표했으며, 매출과 이익은 전반적으로 시장 예상치를 상회했습니다. 매출은 전년 대비 18% 증가한 776억 7천만 달러를 기록했고, 주당순이익은 3.72달러였습니다. 주요 성장 동력은 클라우드 부문으로, Azure 매출은 전년 대비 40% 성장했습니다. 그러나 AI 및 클라우드 역량 강화를 위해 마이크로소프트의 자본 지출(CapEx)은 역대 신고점 인 349억 달러를 기록했습니다. 또한, OpenAI 투자로 인해 영업외 손익 37억 달러 감소했습니다. 탄탄한 펀더멘털에도 불구하고, 가속 자본 지출은 투자자들에게 여전히 가장 큰 리스크 요소로 남아 있습니다.

( 오픈AI, 자본 구조조정 완료하고 PBC 설립! 최근 기업가치 5천억 달러, 마이크로소프트 지분 27% 보유 )

2025년, AI 산업 전체가 해시레이트 미친 듯이 확장하는 동안 마이크로소프트는 대세에 역행했습니다. 마이크로소프트는 일부 데이터센터 건설을 조용히 중단했고, 이는 전 세계적인 AI 인프라 붐 속에서 마이크로소프트의 성장 속도가 둔화된 것이 아니냐는 의문을 불러일으켰습니다. 그러나 최근 심층 인터뷰컨퍼런스 콜 에서 마이크로소프트 CEO 사티아 나델라는 완전히 다른 전략적 사고방식을 밝혔습니다. 마이크로소프트는 느리지 않았습니다. 오히려 차세대 AI 경쟁이 단일 모델에 의존하거나 단일 세대 GPU에 모든 것을 코인 않을 것이라는 점을 누구보다 잘 이해하고 있었습니다.

목차

비녀장

마이크로소프트는 OpenAI에 얽매이지 않고 대신 수평적, 수직적 생태계를 개발했습니다.

마이크로소프트가 OpenAI에 수십억 달러를 투자했으니 당연히 기술 방향을 GPT 시리즈와 긴밀히 연계할 것이라는 추측이 널리 퍼져 있습니다. 그러나 나델라의 관점은 상당히 다릅니다. 그는 대규모 언어 모델 기업들이 실제로 구조적 리스크 에 직면해 있다고 단호하게 지적합니다.

"모범 기업이라면 '승자의 저주'에 빠질 가능성이 높습니다. 힘들게 얻은 혁신을 모방하면 곧바로 상품이 되는 것이죠." 그의 요점은 명확합니다. 어떤 모델 아키텍처가 승리할지 아무도 모릅니다. 더 심각한 것은 오픈소스 모델과 기업의 수정 사항이 단시간 내에 최첨단 모델을 따라잡을 수 있다는 것입니다. 다시 말해, 500억 달러를 투자하여 학습시킨 모델의 역량은 독점 데이터로 수정된 오픈소스 모델과 즉시 동일해질 수 있다는 것입니다.

스캐폴딩 계층은 AI의 진정한 참호입니다. Microsoft는 인프라, 모델, 에이전트를 통합합니다.

따라서 마이크로소프트는 자사의 미래를 GPT에만 의존하지 않고, 최첨단 OpenAI 모델을 사용하고 오픈소스 및 다른 벤더(예: Meta, Anthropic)를 동시에 지원할 것입니다. 나델라는 모델 자체가 점차 상용화될 것이라고 생각합니다. 진정한 해자는 모델 자체가 아니라 스캐폴딩 계층에 있습니다. 따라서 마이크로소프트는 자체 MAI 모델을 개발하는 동시에 Copilot 및 Azure와 같은 제품을 통해 자체 생태계를 구축합니다. 데이터와 상황적 엔지니어링을 확보하는 것이 마이크로소프트의 진정한 해자입니다.

마이크로소프트가 데이터 센터를 건설할 능력이 없는 것은 아니지만, 차세대 GPU를 위한 대규모 데이터 센터를 건설할 의지가 없는 것입니다.

2025년에는 많은 기업들이 GB200 규모의 데이터센터를 필사적으로 건설했습니다. 하지만 마이크로소프트의 전략은 완전히 달랐습니다. 일부 데이터센터 건설을 중단하고 대신 외부 NeoCloud 및 채굴 기업으로부터 해시레이트 임대했습니다. 그 이유에 대해 나델라는 "특정 세대의 GPU나 특정 모델 아키텍처에서만 사용할 수 있는 기가와트급 데이터센터를 건설하고 싶지 않습니다."라고 말했습니다.

그는 GB200의 디자인과 요구 사항이 GB300과 다르며, Vera Rubin Ultra의 전력 소비량과 냉각 요구 사항도 완전히 다를 것이라고 설명했습니다. 마이크로소프트의 전략은 언뜻 보기에는 훌륭해 보이지만 몇 달 후에는 매몰 비용이 되는 인프라에 자금을 쏟는 대신, 시간이 지남에 따라 성장할 수 있는 인프라를 개발하는 것입니다.

AI 데이터 센터 건설 비용의 절반 이상이 GPU 구매에 사용됩니다.

( 바클레이즈, 오라클의 ORCL 신용등급 하향 조정, 정크본드 수준까지 하락! 자본 확충 급증으로 내년 현금 흐름 문제 발생할 수도 )

보고서에 따르면 AI 데이터센터 구축 비용은 GW당 최대 500억~600억 달러로 기존 데이터센터 구축 비용의 세 배에 달하며, 이 중 절반 이상이 NVIDIA와 같은 기업으로부터 GPU 컴퓨팅 하드웨어를 구매하는 데 소요되는 것으로 나타났습니다. 2025년 초부터 향후 몇 년간 글로벌 기술 기업들의 예상 CapEx(자본 지출)는 거의 두 배로 증가했습니다. 예를 들어 오라클의 부채비율은 500%이며, 바클레이즈는 CapEx가 현재 수준을 유지한다면 이르면 내년 11월경 현금이 고갈될 것으로 추산합니다. 반면 마이크로소프트의 부채비율은 30%에 불과하여 비교적 건전한 재무 상태를 유지하고 있습니다.

업계 관계자들은 AI 데이터 센터의 CPU 실제 수명은 1~3년에 불과하다고 밝혔습니다.

구글 출신 업계 관계자들은 AI 데이터 센터에서 사용되는 CPU의 수명이 1~3년에 불과하다고 밝혔습니다 .

대규모 공매도 열풍의 핵심 인물인 마이클 버리는 많은 AI 기업들이 주장하는 AI 사용 기간이 실제로는 그렇게 길지 않으며, 오히려 재무제표의 연간 감가상각비를 부풀리기 위해 사용 기간을 늘리고 있다고 지적했습니다. 버리는 2026년에서 2028년 사이에 하이퍼스케일 클라우드 제공업체들이 감가상각비를 총 1,760억 달러까지 과소평가할 것으로 추산했습니다. 그는 이러한 계산을 바탕으로 "2028년까지 오라클의 수익은 26.9%, 메타의 수익은 20.8% 과대평가될 것"이라고 예측했습니다.

( 대규모 공매도 열풍의 주역인 마이클 버리가 AI 거대 기업들을 다시 한번 비판합니다. 감가상각을 과소평가하고 수익을 부풀리는 것은 현대판 사기입니다 .)

마이크로소프트는 자본 지출에 얽매이고 싶지 않아 광산 회사로부터 해시레이트 구매하고 있습니다.

나델라는 대체 가능성을 강조하며, 마이크로소프트의 막대한 투자 의지는 여러 대규모 언어 모델에 적응하고, 다단계 학습, 데이터 생성 및 추론을 완료하고, 여러 세대의 GPU를 지원할 수 있는 능력에 달려 있다고 말했습니다. 이것이 바로 투자를 정당화하는 이유입니다. 이는 마이크로소프트가 단일 칩 세대에 얽매이기보다는 외부 해시레이트 임대하는 것을 선호하는 이유를 설명합니다. 또한 IREN과 같은 많은 클라우드 컴퓨팅 제공업체가 최근 마이크로소프트의 경쟁자가 아닌 파트너가 된 이유도 설명합니다.

( Microsoft와 97억 달러 규모의 AI 클라우드 계약 체결 후 IREN 주가가 7% 이상 상승 )

Microsoft의 비즈니스 모델은 C에서 Agent로 전환되었습니다.

마이크로소프트의 비즈니스 모델은 전통적으로 소비자에게 소프트웨어 서비스를 판매하는 데 집중되어 왔습니다. 이제 그들의 목표는 AI 에이전트에게 인프라를 판매하는 것입니다(Business to Agent). 마이크로소프트는 모델 경쟁에서 승리하는 것이 아니라, AI 에이전트 시대의 마이크로소프트가 되는 것을 목표로 합니다. 모델은 점점 더 많아지고, 더 새롭고, 더 강력해질 것입니다. 하드웨어는 세대가 바뀔 때마다 점점 더 밀도가 높아지고 에너지 소모도 커질 것입니다. 데이터 센터는 새로운 전력 수요를 충족하기 위해 끊임없이 재설계될 것입니다. 하지만 한 가지는 변함없을 것입니다. AI 에이전트가 제대로 작동하려면 세계적 수준의 신뢰성과 감사 갖춘 세대 간 호환 인프라가 필요합니다.

이것이 바로 마이크로소프트가 하려는 일입니다. 사티아 나델라가 이 인터뷰에서 전달하고자 했던 진정한 메시지이기도 합니다. 모델과 칩은 변할 것이지만, "AI 에이전트의 운영 환경"만이 유일하게 끊임없이 경쟁하는 영역이라는 것입니다.

리스크 경고

암호화폐 투자는 높은 리스크 수반합니다. 가격 변동이 심할 수 있으며, 원금 전액을 잃을 수도 있습니다. 리스크 신중하게 평가하시기 바랍니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트