ChatGPT Images 2.0 đã được phát hành, vượt trội một cách ngoạn mục so với Google Nano Banana. Liệu thiết kế thực sự đang đi đến hồi kết?

Bài viết này được dịch máy
Xem bản gốc

Vào lúc 3 giờ sáng theo giờ Bắc Kinh, buổi phát trực tiếp bắt đầu đúng giờ và OpenAI đã phát hành ChatGPT Images 2.0.

Theo phần giới thiệu, "ChatGPT Images 2.0 là bước tiến tiếp theo trong quá trình phát triển: một mô hình tiên tiến có khả năng xử lý nhiệm vụ hình ảnh phức tạp và tạo ra nội dung hình ảnh chính xác, sẵn sàng sử dụng."

Có lẽ vì lý do này, các bài đăng trên blog chính thức của OpenAI đưa ra hai phiên bản (chế độ hình ảnh và chế độ cổ điển), trong đó nội dung của chế độ hình ảnh được mô hình tự động tạo ra hoàn toàn!

Địa chỉ blog: https://openai.com/index/introducing-chatgpt-images-2-0/

Trong bài đăng trên blog của mình, OpenAI tuyên bố: "Hình ảnh là một ngôn ngữ, không phải là vật trang trí. Những hình ảnh tốt, giống như những câu văn hay, được lựa chọn, sắp xếp và trình bày một cách cẩn thận. Chúng có thể giải thích các cơ chế, tạo bầu không khí, xác thực ý tưởng hoặc xây dựng lập luận."

ChatGPT Images 2.0 đã đạt được một bước tiến vượt bậc về khả năng tuân thủ tỉ mỉ các hướng dẫn, đặt và liên kết các đối tượng một cách chính xác, hiển thị văn bản mật độ cao và hỗ trợ tạo ra nhiều tỷ lệ khung hình khác nhau. Khả năng về bố cục và thẩm mỹ hình ảnh khiến cho sản phẩm đầu ra không còn mang cảm giác "được tạo ra bởi AI" mà giống như "được thiết kế có chủ đích".

Hơn nữa, nó hoạt động chính xác trong hoàn cảnh đa ngôn ngữ và có thể sử dụng kiến ​​thức hình ảnh và thế giới mở rộng để bổ sung chi tiết cho bạn, từ đó cung cấp hình ảnh thông minh hơn với ít thao tác nhắc nhở hơn.

Để giải quyết nhiệm vụ phức tạp nhất, Images 2.0 lần đầu tiên giới thiệu "khả năng tư duy". Khi chọn mô hình tư duy hoặc chuyên nghiệp trong ChatGPT, Images 2.0 có thể kết nối internet để lấy thông tin thời gian thực, tạo ra nhiều hình ảnh khác nhau từ một yêu cầu duy nhất và xem xét kết quả đầu ra của chính nó. Với "khả năng tư duy", mô hình có thể đảm nhận nhiều công việc hơn giữa ý tưởng và hình ảnh, đặc biệt khi độ chính xác, tính kịp thời, tính nhất quán và tính đồng nhất về mặt hình ảnh là rất quan trọng.

Bằng cách kết hợp trí thông minh của mô hình suy luận OpenAI với sự hiểu biết sâu sắc về thế giới hình ảnh, mô hình này nâng tầm việc tạo hình ảnh từ "kết xuất" lên "thiết kế chiến lược", phát triển từ một công cụ thành một hệ thống trực quan giúp mọi người chuyển đổi ý tưởng thành kết quả dễ hiểu, dễ chia sẻ, dễ giảng dạy và dễ xây dựng.

Tính năng này hiện đã có sẵn cho tất cả người dùng ChatGPT, Codex và API bắt đầu từ hôm nay.

Độ chính xác và khả năng kiểm soát cao hơn

Images 2.0 mang đến độ chi tiết và độ trung thực chưa từng có cho việc tạo ảnh. Nó không chỉ cho phép tạo ra những hình ảnh phức tạp hơn mà còn làm cho chúng trở nên sống động một cách hiệu quả, tuân thủ nghiêm ngặt các hướng dẫn, bảo toàn các chi tiết quan trọng và hiển thị các yếu tố nhỏ mà trước đây dễ bị biến dạng: văn bản nhỏ, biểu tượng, các yếu tố giao diện người dùng, bố cục mật độ cao và các ràng buộc kiểu dáng tinh tế. API hỗ trợ độ phân giải lên đến 2K. Kết quả không còn chỉ là "gần đúng" mà là "sẵn sàng để sử dụng".

Hãy lưu ý rằng ảnh chụp màn hình bên dưới thực chất được tạo ra bởi Images 2.0!

Khả năng đa ngôn ngữ mạnh mẽ hơn

Các mô hình tạo ảnh trước đây ổn định hơn với tiếng Anh và các ngôn ngữ sử dụng bảng chữ cái Latinh, nhưng có độ chính xác thấp hơn đối với các ngôn ngữ khác, đặc biệt là văn bản phức tạp hoặc dày đặc.

Images 2.0 đã vượt qua hạn chế này, nâng cao đáng kể khả năng hiểu nhiều ngôn ngữ, đặc biệt là trong việc hiển thị văn bản cho tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi và tiếng Bengali. Nó không chỉ tạo ra văn bản không phải tiếng Anh một cách chính xác mà còn đảm bảo diễn đạt ngôn ngữ tự nhiên và trôi chảy.

Điều này không chỉ đơn thuần là dịch các nhãn mác; nó còn có nghĩa là biến chính ngôn ngữ trở thành một phần của thiết kế, đạt được sự thống nhất về mặt hình ảnh và ngôn ngữ từ áp phích và sơ đồ giải thích đến tranh minh họa và truyện tranh. Điều này mang lại cho mô hình khả năng ứng dụng toàn cầu rộng lớn hơn, cho phép người dùng tạo nội dung trực quan trong hoàn cảnh ngôn ngữ thực tế.

Trong buổi phát trực tiếp, Chen Boyuan, một thành viên của đội ngũ nghiên cứu hình ảnh OpenAI, đã trình bày một nghiên cứu trường hợp với đề bài: "Hãy thiết kế một áp phích quảng cáo thủ công cho một tiệm bánh hư cấu của OpenAI. Áp phích phải bằng tiếng Nhật."

Tấm áp phích hoàn thành hoàn toàn phù hợp với yêu cầu và chính xác đến từng chi tiết.

"Nó rất giỏi trong việc tuân theo các hướng dẫn chi tiết, vì vậy nếu bạn có ngôn ngữ thương hiệu, thẩm mỹ thiết kế rất cụ thể - tất cả những điều cần thiết cho công việc sáng tạo - bạn có thể sử dụng ChatGPT để tạo và hoàn thiện ý tưởng của mình nhằm đạt được kết quả mong muốn," Chen Boyuan cho biết.

Phong cách biểu đạt và chủ nghĩa hiện thực trưởng thành hơn.

Images 2.0 mang đến độ chân thực được cải thiện đáng kể trên nhiều phong cách hình ảnh khác nhau. Nó vượt trội trong việc nắm bắt các đặc điểm chính của ảnh chụp, bao gồm cả những khuyết điểm nhỏ giúp tăng tính chân thực, đồng thời liên tục hiển thị hình ảnh điện ảnh, nghệ thuật pixel và truyện tranh với độ nhất quán cao hơn về kết cấu, ánh sáng, bố cục và chi tiết.

Do đó, kết quả đầu ra của mô hình sẽ gần với phong cách được chỉ định hơn là chỉ đơn thuần là bắt chước. Điều này đặc biệt có giá trị đối với việc tạo mẫu trò chơi, tạo ra kịch bản phân cảnh, ý tưởng tiếp thị và tạo tài sản cho các phương tiện truyền thông hoặc thể loại cụ thể.

Tỷ lệ khung hình linh hoạt

Mẫu máy mới mang lại sự linh hoạt hơn về định dạng đầu ra, hỗ trợ nhiều tỷ lệ khung hình từ 3:1 đến 1:3, và có thể được điều chỉnh trực tiếp cho các trường hợp khác nhau như biểu ngữ, bài thuyết trình, áp phích, giao diện di động, dấu trang và đồ họa mạng xã hội. Bạn có thể chỉ định tỷ lệ khung hình trong các lời nhắc hoặc tạo lại hình ảnh hiện có với kích thước mới bằng cách sử dụng các tùy chọn được thiết lập sẵn.

Dưới đây là hai ví dụ về tỷ lệ khung hình không thông thường:

Hiểu biết sâu sắc hơn về thế giới thực

Images 2.0 tích hợp kiến ​​thức tính đến tháng 12 năm 2025, nâng cao hơn nữa tính phù hợp và độ chính xác theo ngữ cảnh của kết quả tạo ra. Điều này đặc biệt quan trọng đối với các sơ đồ minh họa, đồ họa giáo dục và tóm tắt trực quan, nơi độ chính xác và rõ ràng cũng quan trọng như tính thẩm mỹ.

Khả năng thông minh của nó cũng được thể hiện trong quá trình xử lý nhiệm vụ từ đầu đến cuối: tích hợp thông tin, viết nội dung và định dạng với cấu trúc rõ ràng, khoảng trắng hợp lý và bố cục trực quan tốt.

Đối tác tư duy trực quan

Sau khi kích hoạt mô hình tư duy trong ChatGPT, hệ thống sẽ thực hiện quá trình hiểu sâu hơn và xử lý ngầm. Nó có thể truy xuất thông tin trực tuyến, chuyển đổi tài liệu được tải lên thành mô tả trực quan rõ ràng và suy luận cấu trúc của hình ảnh trước khi tạo ra.

Ở chế độ này, Images 2.0 hoạt động như một người bạn đồng hành trực quan, giúp bạn chuyển đổi các ý tưởng ban đầu thành sản phẩm hoàn chỉnh và giảm đáng kể khối lượng công việc.

Nó cũng hỗ trợ tạo ra nhiều hình ảnh khác nhau cùng một lúc, đây là lần đầu tiên đối với tính năng tạo hình ảnh của ChatGPT. Điều này giúp các quy trình làm việc như truyện tranh nhiều trang, thiết kế nội thất toàn nhà, sê-ri áp phích hoặc nội dung mạng xã hội đa ngôn ngữ, đa kích cỡ trở nên hiệu quả và khả thi hơn.

Bạn không cần phải tạo từng hình ảnh riêng lẻ rồi ghép chúng lại với nhau bằng tay; chỉ với một yêu cầu duy nhất, bạn có thể nhận được tối đa tám kết quả nhất quán về nhân vật và yếu tố, đồng thời có tính liên tục.

Tạo ảnh trong Codex

Các khả năng xử lý hình ảnh đã được tích hợp vào Codex, cho phép tạo, chỉnh sửa và phân phối hình ảnh được thực hiện trong cùng một không gian làm việc, mở rộng ứng dụng của nó trong các lĩnh vực như thiết kế, tiếp thị, sản phẩm, bán hàng và đào tạo.

Ví dụ, bạn có thể nhanh chóng tạo ra nhiều thiết kế giao diện người dùng và nguyên mẫu, so sánh các giải pháp và trực tiếp chuyển đổi thiết kế tốt nhất thành sản phẩm hoặc trải nghiệm web mà không cần rời khỏi Codex. Tính năng này có sẵn thông qua gói đăng ký ChatGPT; không cần thêm khóa API nào khác.

Tích hợp khả năng xử lý hình ảnh vào sản phẩm thông qua API.

Các nhà phát triển và doanh nghiệp có thể tích hợp các khả năng này vào sản phẩm của riêng họ thông qua API gpt-image-2, bổ sung khả năng tạo và chỉnh sửa hình ảnh chất lượng cao vào quy trình làm việc hiện có.

Với khả năng hiển thị văn bản được nâng cao, tạo nội dung đa ngôn ngữ, tuân thủ hướng dẫn và hỗ trợ nhiều định dạng đầu ra và tỷ lệ khung hình hơn, API này giúp dễ dàng xây dựng quy trình xử lý hình ảnh cho các tình huống việc kinh doanh thực tế, chẳng hạn như quảng cáo bản địa hóa, đồ họa thông tin, sơ đồ giải thích, nội dung giáo dục, công cụ thiết kế, nền tảng sáng tạo và các sản phẩm tạo trang web.

giới hạn

OpenAI cũng đề cập đến những hạn chế của mô hình trong bài đăng trên blog của mình: Mặc dù Images 2.0 là một bước tiến đáng kể, nhưng nó vẫn chưa hoàn hảo. Đối với nhiệm vụ yêu cầu mô hình hóa thế giới vật lý hoàn chỉnh (như hướng dẫn gấp giấy origami, khối Rubik và các cấu trúc phức tạp khác), cũng như các chi tiết chính xác của các mặt bị che khuất, mặt nghiêng hoặc bề mặt đảo ngược, mô hình vẫn có thể chưa đáp ứng được yêu cầu.

Mật độ cực cao hoặc các chi tiết lặp đi lặp lại (như cát mịn) cũng có thể gây khó khăn. Việc kiểm tra thủ công vẫn được khuyến khích đối với nhãn và sơ đồ, đặc biệt khi có các mũi tên hoặc ký hiệu thành phần chính xác.

Đây đều là những hướng quan trọng cho những cải tiến trong tương lai.

Trong API, các đầu ra vượt quá 2K hiện đang trong giai đoạn thử nghiệm và có thể không ổn định.

Giá cả và tình trạng sẵn có

ChatGPT Images 2.0 đã có sẵn cho tất cả người dùng ChatGPT và Codex bắt đầu từ hôm nay. Các tính năng đầu ra nâng cao với khả năng "suy nghĩ" chỉ dành cho người dùng ChatGPT Plus, Pro và Business.

Mô hình gpt-image-2 có sẵn trong API, và giá cả thay đổi tùy thuộc vào chất lượng và độ phân giải hình ảnh.

OpenAI cũng đã công bố lượng lớn các nghiên cứu điển hình trên ra mắt chính thức của mình, độc giả quan tâm có thể truy cập để thuận tiện tham khảo.

Chúng tôi cũng tiến hành một số thử nghiệm đơn giản, chẳng hạn như tạo trang 2 của đề thi toán đại học Trung Quốc, kết quả trông khá ổn:

Trong quá trình thử nghiệm thực tế, chúng ta có thể nhìn lên trên trang ChatGPT Images 2.0 thường trải qua một số bước để tạo ra một hình ảnh: tạo → bản nháp → bản nháp đầu tiên → thiết lập bối cảnh → tinh chỉnh chi tiết → hoàn thiện → chỉnh sửa cuối cùng → tinh chỉnh cuối cùng.

Tiếp theo, chúng ta sẽ tạo một tác phẩm thư pháp chữ thảo truyền thống Trung Quốc của bài thơ "Giang Tĩnh Cửu" của Lý Bạch, với tỷ lệ chiều rộng so với chiều cao là 3:1. Nội dung là toàn văn bài thơ "Giang Tĩnh Cửu". Chữ ký là ChatGPT Images 2.0.

Tuy nhiên, rõ ràng là mô hình này không tạo ra một phiên bản hoàn chỉnh, và rõ ràng đó không phải là chữ viết thảo.

Cuối cùng, đây là trang có hình minh họa giải thích năm kỹ thuật roi sấm sét liên tiếp:

Điều này khá thú vị.

Trải nghiệm, chúng tôi cảm thấy ChatGPT Images 2.0 thực sự mạnh mẽ hơn nhiều so với Nano Banana 2 hiện tại; hãy chờ xem Google sẽ phản hồi như thế nào.

Bạn đã thử ChatGPT Images 2.0 chưa? Bạn nghĩ sao về nó?

Bài viết này được trích từ tài khoản WeChat công cộng "Machine Heart" (ID: almosthuman2014) , do Panda và Youli biên soạn, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
76
Thêm vào Yêu thích
16
Bình luận