기술 거물 엘론 머스크가 설립한 인공지능 회사 xAI는 수요일에 자사의 AI 챗봇의 다음 진화 버전인 Grok 2를 공개했습니다. 이 최신 릴리스는 Grok을 멀티모달 영역으로 끌어올려 텍스트 이해, 실시간 Twitter 분석, 이미지 생성을 아우르는 기능을 자랑합니다.
xAI는 공식 발표 에서 "이전 모델인 Grok-1.5에서 크게 발전한 Grok-2의 초기 미리보기를 출시하게 되어 기쁩니다. 채팅, 코딩, 추론에서 최첨단 기능을 제공합니다."라고 밝혔습니다. 이 회사는 Grok 2의 초기 버전이 "Claude 3.5 Sonnet과 GPT-4-Turbo보다 성능이 뛰어납니다."라고 말했습니다.
LmSYS는 블라인드 테스트와 사용자 선호도에 기반한 대규모 언어 모델을 위한 오픈소스 순위 시스템이며, xAI의 주장을 확인했습니다. 순위 업데이트에 따르면 Grok-2는 Claude 3.5 Sonnet보다 앞서고 OpenAI의 최신 GPT-4o와 Google의 제미니(Gemini) 1.5 Pro 바로 뒤에 있습니다.
"[Grok 2]는 12,000개 이상의 커뮤니티 투표를 통해 전체 리더보드에서 3위를 확보했으며 GPT-4o와도 맞먹었습니다! 코딩(2위), 하드 프롬프트(4위), 수학(2위)에서 탁월합니다." LmSYS가 Twitter에 보고했습니다.
특히, 새로운 Grok 2와 더 빠르고 성능이 떨어지는 "미니" 버전은 X(일명 Twitter)에서만 X Premium+ 구독자에게 제공되며, 가격은 월 16달러 또는 연 168달러입니다.
xAI는 "Grok-2와 Grok-2 mini는 현재 X에서 베타 버전"이라고 말했지만 미니 버전만 이용할 수 있었기 때문에 점진적으로 출시될 가능성이 큽니다. 또한 플랫폼에서 이미지 생성이 잠시 중단되어 서비스 상한이나 서버 과부하가 발생할 가능성이 있습니다. 어느 경우든 AI 아트 파워 사용자에게는 불리할 수 있습니다.
우리는 Grok 2의 이미지 생성기를 시도했고, 첫 인상은 좋지 않았고, 출력은 기껏해야 밋밋해 보였습니다. 하지만 우리는 우리의 프롬프팅 기술을 다듬었고, 몇 세대가 지나자 상황이 많이 개선되었습니다.
우리는 이렇게 시작했습니다:
그러나 SDXL 스타일의 미적 요소(쉼표로 구분된 특정 키워드 사용)와 자연어 장면 설명( 플럭스(Flux) 또는 Dall-E 3 접근 방식과 유사)을 결합함으로써 우리는 세대에서 더 높은 수준의 사실감을 확보했고, 그 결과는 다음과 같습니다.
나쁘지 않아요... 더 좋아질 수는 있지만, 전혀 나쁘지 않아요.
Grok이 이미지 생성 분야에 진출하기 전에 MidJourney, 플럭스(Flux), Ideogram, Leonardo, MidJourney가 최고의 이미지 생성기 자리를 차지하기 위해 경쟁했으며, 각 모델은 다른 범주에서 뛰어난 성과를 보였습니다. 그래서 우리는 각 도구가 가장 잘하는 일을 기준으로 특정 작업의 선두 주자와 경쟁시켰습니다.
우리의 의견은 다음과 같습니다. 하지만 판단은 여러분이 하세요.
프롬프트: VSCO 필터가 적용된 폴라로이드 사진, 1990년, 아름다운 여성, 밤, 플래시 사진, 금발, 귀여움, 젊은 얼굴, 아름다운 그림자, 열대 식물, 도시적 옷차림, 아파트 내부, DSLR, 노트에 볼펜으로 쓴 표지판을 들고 있으며, "이 사진은 Grok 2 Mini를 사용하여 디크립트(Decrypt) 에서 생성되었습니다."라고 적혀 있음.
그록 2 미니:
Grok 2 Mini는 매우 사실적인 이미지를 제공했으며, VSCO 필터로 1990년대 폴라로이드의 미학을 효과적으로 포착했습니다. 그림자, 열대 식물, 도시 의류와 같은 세부 사항이 정확하게 묘사되었습니다. 모델은 상당한 실수를 피했으며, 이미지가 프롬프트를 밀접하게 따르도록 했습니다. 이미지를 폴라로이드 사진과 비슷하게 프레이밍했습니다.
1990년대의 미학이 더 두드러졌어야 할 사소한 부분이 있을 수 있지만, 이는 전반적인 사실감을 크게 떨어뜨리는 것은 아닙니다.
또한 글씨는 완벽했지만 볼펜으로 쓴 것 같지는 않았습니다.
플럭스(Flux) Dev(리얼리즘 LoRA 포함):
플럭스(Flux) Dev는 특히 야간 실내 환경을 포착하는 데 있어 프롬프트에 잘 부합하는 시각적으로 매력적인 이미지를 생성했습니다.
그러나 Grok 2 Mini에 비해 더 눈에 띄는 오류가 있었는데, 특히 전반적인 사실감에 기여하는 미세한 디테일에서 그렇습니다. VSCO 필터는 눈에 띄지 않고, 손가락 위치가 이상하며, 도시적 옷차림이 보이지 않습니다. 글씨에도 사소한 오류가 있었지만, 글꼴은 더 자연스럽게 보입니다.
수상자: Grok 2 Mini가 뛰어난 사실성, 세부 사항에 대한 주의, 최소한의 실수 덕분에 이 부문에서 우승했습니다.
그러나 이 수준의 사실성을 달성하려면 특정 키워드가 필요하다는 점을 알아두는 것이 매우 중요합니다. 이를 생략하면 Grok 2 Mini는 MidJourney v5와 비슷한 수준으로 떨어집니다. 그러니 조심하세요.
프롬프트: VSCO 필터가 적용된 폴라로이드 사진, 1990년, 아름다운 여성, 밤, 플래시 사진, 금발, 귀여운, 젊은 얼굴, 아름다운 그림자, 열대 식물, 도시적 옷, 아파트 내부, DSLR, 노트에 볼펜으로 쓴 표지판을 들고 "Emerge by 디크립트(Decrypt) AI, 기술, 바이오 해킹, 그리고 그 모든 것에 대한 최고의 소스입니다. 저희를 읽어보세요."
그록 2 미니:
Grok 2 Mini는 이 범주에서 실수를 줄여 텍스트를 생성하고 메시지가 명확하고 이미지에 잘 통합되도록 보장하여 탁월한 성과를 거두었습니다. 이 모델은 긴 텍스트를 효과적으로 통합하는 동시에 장면의 사실성을 유지했습니다.
필기의 미학에 약간의 개선의 여지가 있을 수 있지만, 이는 사소한 문제입니다. 유일한 실수는 "AI를 위한 최고의 소스"에서처럼 "for"라는 단어가 빠진 것입니다.
플럭스(Flux) 프로:
플럭스(Flux) Pro도 텍스트를 잘 생성했지만, 명확성이나 통합 측면에서 어려움이 있었고, Grok 2 Mini에 비해 오류가 더 눈에 띄었습니다.
텍스트 생성의 실수는 더 분명해졌고, 이미지의 전반적인 효과에 영향을 미쳤습니다. 아티팩트를 생성했고 몇 개의 단어가 빠졌습니다.
수상자 : Grok 2 Mini가 텍스트 생성 부문에서 승리하여, 긴 텍스트를 실수 없이 처리하고 전반적인 사실성을 유지했습니다.
프롬프트: 미래적 레스토랑에서 저녁을 먹는 남자와 여자, 빈센트 반 고흐 스타일의 일러스트. 레스토랑에는 " 디크립트(Decrypt) 의 Emerge에 오신 것을 환영합니다."라는 표지판이 있습니다.
그록 2 미니:
Grok 2 Mini는 프롬프트의 미래적 요소를 통합하면서 반 고흐의 스타일을 포착하려고 시도했습니다. 반 고흐의 스타일은 외부 밤하늘에서만 눈에 띄지만, 구성의 주요 요소는 그의 스타일과 전혀 닮지 않았습니다.
전반적으로 반 고흐의 스타일은 그의 작품을 특징짓는 독특한 붓놀림과 색상 팔레트가 부족하기 때문에 설득력 있게 재현되지 않았을 수도 있습니다.
레오나르도:
레오나르도는 반 고흐의 스타일을 더 정확하게 재현하여 붓놀림과 선명한 색상을 더욱 향상시켰습니다.
미래적 요소가 묘사된 방식에는 약간의 차이가 있을지 몰라도, 예술적 스타일이 초점이 되었고 잘 구현되었습니다.
수상자: 레오나르도는 반 고흐의 예술적 스타일을 탁월하게 재현했다는 점에서 이 부문에서 수상했습니다.
프롬프트: 고양이 위에 서 있는 개, 털의 질감과 조명에 세심한 주의를 기울여 매우 사실적인 스타일로 렌더링되었습니다. 왼쪽에는 낡고 복고풍 미래주의 로봇이 금이 간 아날로그 화면에 "Emerge"라는 단어가 희미하고 주황색으로 변색된 픽셀로 표시됩니다. 오른쪽에는 가스 마스크를 쓴 소름 돋는 빈티지 스타일의 의사가 증기가 솟아오르는 빈티지 스타일 주사기를 들고 있습니다. 배경은 떠오르는 기술의 요소를 혼합했지만 복고풍의 1970년대에서 영감을 받은 미학을 가지고 있습니다. 낡은 거친 DNA 나선, 황변된 종이에 인쇄된 이진 코드, 구식 우주 탐사 장비, 낡은 복고풍 미래주의 전자 장치.
그록 2 미니:
Grok 2 Mini는 복잡한 장면을 잘 처리하려고 노력하여 요소 간의 공간적 관계가 논리적이고 시각적으로 일관성이 있도록 했지만 모든 요소를 동일한 장면에 통합하는 데 실패했습니다. 고양이 위에 있는 개 대신 모니터 위에 있는 고양이를 얻었습니다.
더 넓은 이미지 비율이 부족하면 기능에 문제가 생길 수 있습니다. 또한, Grok의 LLM이 이미지를 생성하기 전에 수행하는 신속한 향상이나 해석을 적절하게 안내하거나 영향을 미칠 방법이 없다는 사실은 복잡한 장면에서 특정 요소가 필요할 때 부정적인 점입니다.
표의 문자:
이데오그램은 공간 인식에 뛰어나 모든 요소가 올바르게 배치되고 장면에 통합되도록 했습니다. 객체 간의 배열과 상호 작용에 대한 세부 사항에 대한 주의가 뛰어났습니다.
물론, 텍스처나 조명에 약간의 사소한 결함이 있었고, 요소들은 Grok 2 mini가 목표로 한 매끄럽고 논리적인 혼합보다는 콜라주처럼 배치되었습니다. 그러나 이는 전반적인 공간적 정확성에 부차적인 것이었습니다.
수상자: 표의문자가 뛰어난 공간 인식 능력과 구성으로 수상했습니다.
Grok 2 Mini는 도널드 트럼프와 카말라 해리스와 같은 정치인의 이미지를 성공적으로 생성함으로써 더 높은 수준의 유연성을 보여줍니다. 윤리적 또는 법적 제약이 다른 모델을 막을 수 있는 경우에도 이미지를 생성할 수 있습니다.
사실, 이것은 독점 모델에 대해 너무나 독특해서 X는 의심스러운 사례로 넘쳐나며, 조지 부시가 마약을 하는 이미지나 트럼프와 해리스가 뉴욕 세계 무역 센터의 쌍둥이 빌딩에 비행기를 충돌시키려는 이미지를 생성합니다. 많은 사람들이 Disney와 Ninetendo와 같은 회사의 저작권이 있는 캐릭터를 포함합니다.
우리는 그렇게 멀리 가지 않고 대신 문제없이 암호화폐를 사랑하는 부사장 해리스를 만들어냈습니다.
MidJourney와 ChatGPT와 같은 다른 모델은 더 엄격한 윤리적 기준을 준수합니다. 이들은 정치인이나 기타 저작권에 민감한 콘텐츠의 이미지를 생성하는 것을 거부합니다. 이러한 접근 방식은 법적 프레임워크와 윤리적 고려 사항을 준수하여 오용 위험을 줄입니다.
승자: Grok 2 Mini는 알려진 인물을 포함한 더 광범위한 이미지를 생성할 수 있기 때문에 기능 면에서 승리합니다. 그러나 윤리적인 콘텐츠 생성의 경우 MidJourney와 ChatGPT가 더 좋습니다.
일반적으로 모든 독점 모델은 대부분 성, 잔혹함 및 기타 유형의 모욕적이거나 민감한 콘텐츠에 대해 검열을 받습니다. 해당 특정 사용 사례의 경우 가장 좋은 솔루션은 오픈소스 모델의 미세 조정된 버전이나 LoRA, Lycoris 및 Stable Diffusion 또는 플럭스(Flux) 와 같은 오픈소스 모델의 기능을 변경하는 임베딩과 같은 타사 구성 요소를 사용하는 것입니다.
MidJourney는 누드와 폭력에 대한 제한이 더 명확합니다. 특정 프롬프트에서 약간의 누드나 폭력적인 이미지를 생성할 수 있지만, 이러한 인스턴스는 일반적으로 통제되고 윤리적 경계를 넘지 않으며 대부분 해결책이거나 무작위입니다.
클로즈 소스 모델을 비교했을 때, Grok 2 Mini는 검열되지 않은 자료를 포함한 더 광범위한 콘텐츠를 생성할 수 있는 능력 덕분에 기능 면에서 승리합니다. 그러나 Stable Diffusion과 극단적인 수준의 사용자 정의 가능성에 비하면 기회가 없습니다.
우리의 예비 테스트에 따르면, Grok 2 Mini는 텍스트 생성 측면에서 경쟁 제품보다 우수한 성과를 보였습니다. 따라서 이 부문에서 전체적인 승자로 볼 수 있습니다.
또한 특정 키워드로 올바르게 프롬프트하는 한, 사실주의에 대한 최상의 모델이 될 수 있습니다. 왜냐하면 단어 위치가 출력에서 큰 역할을 하는 것 같기 때문입니다. 프롬프트에 너무 구체적이지 않으면서도 더 사실적인 것을 찾는 사람들은 MidJourney 또는 플럭스(Flux) 사용할 수 있습니다.
Grok 2 Mini는 특정한 창의적 요소가 필요한 복잡한 작품이나 예술적 이미지를 처리하는 데 매우 부족하여, 특정 분야에 특화된 사용자에게는 단점이 될 수 있습니다.
Leonardo는 여전히 예술적 스타일에서 우위를 점하고 있으며, Ideaogram은 공간 인식에서 앞서고 있습니다. 검열되지 않은 세대에 관해서는 Stable Diffusion이 여전히 왕인 반면, 플럭스(Flux) 뛰어난 텍스트 기능, 사실성 및 자연스러운 프롬프트 이해를 갖춘 최고의 전반적인 로컬 및 오픈 소스 이미지 생성기를 찾는 사람들에게 더 나은 선택이 될 수 있습니다.
"최상의" 모델을 선택하는 것은 해당 작업의 특정 요구 사항에 따라 달라지며, Grok 2 Mini는 특정 유형의 사실주의, 텍스트 중심 시나리오 및 민감한 세대에 선호되는 선택입니다. 다른 모든 것에는 더 나은 모델이 있습니다.





