Alibaba의 GPT-4o 버전이 출시되어 한 문장으로 정확하게 Photoshop 이미지를 무료로 만들 수 있습니다.

avatar
36氪
06-28
이 기사는 기계로 번역되었습니다
원문 표시

6월 27일 늦은 밤, 알리는 다중 모달 통합 이해 및 생성 모델 Qwen VLo를 출시했습니다. 해당 모델은 세계를 "이해"할 뿐만 아니라 이해를 바탕으로 고품질의 재창조를 할 수 있으며, 세 가지 주요 특징을 가지고 있습니다: 더 정확한 이해와 생성, 개방형 명령어로 이미지 편집 지원, 다국어 명령어 지원.

사용자는 즉시 Qwen Chat을 통해 해당 모델(미리보기 버전)에 접근할 수 있으며, 예를 들어 "귀여운 고양이 이미지 생성"과 같은 프롬프트를 직접 보내 이미지를 생성하거나, 고양이 이미지를 업로드하고 "고양이 머리에 모자 씌우기"와 같은 요청으로 이미지를 수정할 수 있습니다.

Qwen VLo는 점진적 생성 방식으로 이미지를 생성합니다. 생성 과정에서 모델은 예측된 내용을 지속적으로 조정하고 최적화하여 최종 결과를 더욱 조화롭고 일관되게 만들며, 시각적 효과를 향상시키는 동시에 더 유연하고 제어 가능한 창작 경험을 제공합니다.

더 정확한 이해와 생성, 개방형 명령어로 이미지 수정 지원

최초의 QwenVL부터 Qwen2.5 VL까지, 알리가 이번에 출시한 Qwen VLo는 원래의 다중 모달 이해 및 생성 능력을 전면적으로 업그레이드했습니다.

다음은 Qwen VLo의 핵심 특징입니다:

1. 더 정확한 콘텐츠 이해와 재창조

과거의 다중 모달 모델은 생성 과정에서 의미론적 불일치 문제가 자주 발생했습니다. 예를 들어 자동차를 다른 유형의 물체로 잘못 생성하거나 원본 이미지의 핵심 구조적 특징을 유지하지 못했습니다. 반면 Qwen VLo는 더 강력한 세부 사항 포착 능력을 통해 생성 과정에서 높은 의미론적 일관성을 유지할 수 있습니다.

2. 개방형 명령어 편집 및 수정 생성 지원

사용자는 자연어로 다양한 창의적 명령어를 제시할 수 있습니다. 예를 들어 "이 그림의 화풍을 반 고흐 스타일로 변경", "이 사진을 19세기 오래된 사진처럼 보이게 하기" 또는 "이 이미지에 맑은 하늘 추가하기" 등입니다. Qwen VLo는 이러한 개방형 명령어에 유연하게 대응하고 사용자의 기대에 부합하는 결과를 생성할 수 있습니다.

예술적 스타일 전환, 장면 재구성, 세부 사항 수정 등 모델은 모든 작업을 처리할 수 있습니다. 심지어 깊이 예측도, 분할도, 감지도, 에지 정보 등 전통적인 시각적 인식 작업도 편집 명령어를 통해 쉽게 완료할 수 있습니다.

더 나아가 객체 수정, 텍스트 수정, 배경 변경 등 여러 작업을 동시에 포함하는 복잡한 명령어도 모델은 수행할 수 있습니다.

3. 다국어 명령어 지원

Qwen VLo는 중국어, 영어를 포함한 다양한 언어의 명령어를 지원하여 언어 장벽을 허물고 전 세계 사용자에게 통합되고 편리한 상호작용 경험을 제공합니다.

(번역 계속...)

사용자: 과일로 가득 찬 테이블 생성

Qwen VLo:

사용자: 에지 검출 이미지 예측

Qwen VLo:

사용자: 빨간색 마스크로 이미지의 바나나 가장자리 분할

Qwen VLo:

5. Qwen VLo는 여러 이미지의 입력 이해 및 생성을 지원할 수 있습니다. (다중 이미지 입력 기능은 아직 공식적으로 출시되지 않았습니다.)

사용자: 이 목욕용품들을 빨간 바구니에 넣어주세요

Qwen VLo:

6. 이미지와 텍스트 동시 입력 외에도 Qwen VLo는 텍스트에서 이미지로의 직접 생성을 지원하며, 일반 이미지와 중영문 포스터 등을 포함합니다.

사용자: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Qwen VLo!" made out of colorful energy

(한 편의 서사시적인 애니메이션 예술 작품: 밤에 마법사가 산 정상에 서서 어두운 하늘을 향해 우주의 주문을 외치고, 다채로운 에너지로 구성된 "Qwen VLo!" 문구가 밤하늘에 나타납니다.)

Qwen VLo:

7. Qwen VLo는 동적 가로세로비의 이미지 생성을 지원하며, 4:1, 1:3과 같은 극단적으로 긴 이미지도 쉽게 처리할 수 있습니다. (극단적인 가로세로비 이미지 생성 기능은 아직 공식적으로 출시되지 않았습니다.)

사용자: 애니메이션 일러스트레이션; 수채화 손그림; 전경은 풀밭, 풀밭 위에 달리는 사람, 동적인 느낌, 그리고 두꺼운 흰 구름; 파란 배경; 색상 층위 다양하고 그라데이션; 자연스럽고 조화로운 전환

Qwen VLo:

8. 통합된 이해 및 생성 모델로서 Qwen VLo는 생성된 내용을 다시 분석하고 이해할 수 있으며, 예를 들어 생성된 이미지의 개와 고양이 품종을 식별할 수 있습니다.

사용자: 강아지와 고양이 생성

Qwen VLo:

사용자: 이 고양이와 개의 품종은 무엇인가요?

Qwen VLo:

결론: 통합된 이해와 생성, 이미지 설명의 새로운 진화

Qwen VLo는 혁신적으로 새로운 점진적 생성 메커니즘을 도입했으며, 이 메커니즘은 생성 효율성을 높일 뿐만 아니라 세부적인 제어가 필요한 긴 텍스트 생성 작업에도 적합합니다.

동시에 Qwen VLo는 아직 미리보기 단계에 있어 생성 과정에서 사실과 다르거나, 원본 이미지와 완전히 일치하지 않거나, 명령을 따르지 않거나, 생성된 이미지 인식과 의도 이해가 안정적이지 않을 수 있습니다.

앞으로 모델은 텍스트로 질문에 답하는 것뿐만 아니라 이미지로 아이디어와 의미를 전달할 수 있을 것입니다. 예를 들어, 개요도 생성, 보조선 추가, 핵심 영역 표시 등의 기능은 사용자에게 더 다양한 커뮤니케이션 방식을 제공할 것입니다.

동시에 출력 능력을 갖춘 멀티모달 모델은 연구자들에게 새로운 감독 방식을 제공합니다. 생성 작업을 통해 그들은 모델이 세상을 더 잘 이해하도록 도울 수 있습니다.

본 기사는 위챗 공식 계정 "지동서"(ID: zhidxcom)에서 가져왔으며, 작성자는 이수청, 36kr의 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트