GPT-4o của Alibaba hiện đã có sẵn, cho phép bạn chỉnh sửa hình ảnh chính xác bằng Photoshop trong một câu, miễn phí

avatar
36kr
06-28
Bài viết này được dịch máy
Xem bản gốc

Vào đêm muộn ngày 27 tháng 6, Alibaba đã ra mắt mô hình thống nhất hiểu và tạo đa phương thức Qwen VLo. Mô hình này không chỉ có thể "hiểu" thế giới mà còn có thể tái tạo với chất lượng cao dựa trên sự hiểu biết, với ba điểm nổi bật sau: hiểu và tạo chính xác hơn, hỗ trợ chỉnh sửa hình ảnh bằng lệnh mở, hỗ trợ lệnh đa ngôn ngữ.

Từ hôm nay, người dùng có thể truy cập mô hình này thông qua Qwen Chat (phiên bản xem trước), chẳng hạn như gửi trực tiếp các lời nhắc như "tạo một bức ảnh mèo dễ thương" để tạo hình ảnh, hoặc tải lên một bức ảnh mèo và yêu cầu "thêm mũ cho mèo" để chỉnh sửa hình ảnh.

Qwen VLo tạo hình ảnh theo phương thức tạo dần. Trong quá trình tạo, mô hình sẽ liên tục điều chỉnh và tối ưu hóa nội dung dự đoán, từ đó đảm bảo kết quả cuối cùng hài hòa và nhất quán hơn, nâng cao hiệu ứng thị giác đồng thời mang lại trải nghiệm sáng tạo linh hoạt và có thể kiểm soát hơn.

... (phần còn lại được dịch tương tự)

Người dùng: Tạo bàn đầy trái cây

Qwen VLo:

Người dùng: Dự đoán hình ảnh phát hiện cạnh

Qwen VLo:

Người dùng: Phân đoạn cạnh của quả chuối bằng mặt nạ màu đỏ

Qwen VLo:

5. Qwen VLo có thể hỗ trợ nhập và hiểu nhiều hình ảnh. (Chức năng nhập nhiều hình ảnh chưa chính thức ra mắt)

Người dùng: Đặt những vật dụng tắm này vào giỏ màu đỏ này

Qwen VLo:

6. Ngoài việc nhập văn bản và hình ảnh cùng lúc, Qwen VLo còn hỗ trợ tạo trực tiếp từ văn bản sang hình ảnh, bao gồm hình ảnh chung và poster tiếng Anh và tiếng Trung.

Người dùng: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Qwen VLo!" made out of colorful energy

(Một tác phẩm nghệ thuật anime史thi: Đêm, một phù thủy đứng trên đỉnh núi, tung ra một phép thuật vũ trụ vào bầu trời đen, với dòng chữ "Qwen VLo!" được tạo nên từ năng lượng màu sắc hiện ra trên bầu trời đêm.)

Qwen VLo:

7. Qwen VLo hỗ trợ tạo hình ảnh với tỷ lệ động, thậm chí dễ dàng xử lý các loại hình ảnh dài như 4:1, 1:3. (Chức năng tạo hình ảnh với tỷ lệ cực đoan chưa chính thức ra mắt.)

Người dùng: Tranh minh họa anime; vẽ tay bằng màu nước; phía trước là sườn đồi, có người chạy trên sườn đồi, có cảm giác động; phía sau là những đám mây dày; nền màu xanh; nhiều lớp màu chuyển; chuyển đổi tự nhiên và hài hòa

Qwen VLo:

8. Là một mô hình thống nhất về hiểu và tạo, Qwen VLo còn có thể phân tích và hiểu lại nội dung được tạo, ví dụ như nhận dạng giống chó và mèo trong hình ảnh được tạo.

Người dùng: Tạo một chó con và một mèo con.

Qwen VLo:

Người dùng: Giống chó và mèo này là gì?

Qwen VLo:

Kết luận: Hiểu và tạo thống nhất, nâng cấp khả năng mô tả hình ảnh

Qwen VLo còn sáng tạo ra một cơ chế tạo lũy tiến hoàn toàn mới, cơ chế này không chỉ nâng cao hiệu quả tạo ra mà còn phù hợp với các nhiệm vụ tạo văn bản dài đoạn cần điều khiển chi tiết.

Đồng thời, Qwen VLo vẫn đang ở giai đoạn xem trước, trong quá trình tạo có thể tồn tại các vấn đề không phù hợp với sự thật, không hoàn toàn giống với hình gốc, không tuân theo hướng dẫn, và không ổn định trong việc nhận dạng và hiểu ý định của hình ảnh mới tạo.

Trong tương lai, mô hình không chỉ có thể trả lời câu hỏi bằng văn bản mà còn có thể truyền đạt ý tưởng và ý nghĩa bằng hình ảnh. Ví dụ như các chức năng tạo sơ đồ, thêm đường phụ trợ, đánh dấu các khu vực quan trọng, v.v. sẽ cung cấp cho người dùng nhiều phương thức giao tiếp đa dạng hơn.

Đồng thời, các mô hình đa phương thức có khả năng xuất ra này cũng cung cấp cho các nhà nghiên cứu một phương thức giám sát mới. Thông qua các nhiệm vụ tạo, họ có thể giúp mô hình hiểu thế giới tốt hơn.

Bài viết này đến từ trang WeChat "Trí Đông Tây" (ID: zhidxcom), tác giả: Lý Thủy Thanh, được 36kr cho phép đăng tải.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận