Văn bản trên menu cuối cùng đã chính xác: ChatGPT Images 2.0 đã tiến gần hơn một bước đến việc trở thành nhà thiết kế chuyên nghiệp.

Bài viết này được dịch máy

Xem bản gốc

Hai năm trước, bạn đã sử dụng mô hình xử lý hình ảnh AI mạnh nhất thời bấy giờ để tạo ra thực đơn nhà hàng.

Thực đơn đã được đưa ra; bố cục đẹp và phối màu chính xác, nhưng tất cả tên món ăn đều bị viết sai chính tả.

Hai năm sau, những yêu cầu tương tự được đưa ra cho ChatGPT Images 2.0, và thực đơn kết quả đã sẵn sàng để in. Không chỉ văn bản chính xác và giá cả hợp lý, mà ngay cả bố cục và khoảng cách cũng trông như được thiết kế bởi một nhà thiết kế thực thụ.

Điều gì đã xảy ra trong hai năm qua? OpenAI cho rằng vấn đề chưa được giải quyết trong quá khứ được gọi là "khoảng cách ý định": có một khoảng cách giữa những gì người dùng muốn trong tâm trí họ và những gì cuối cùng xuất hiện trên màn hình.

Phiên bản ChatGPT Images 2.0 mới được phát hành đã giải quyết vấn đề này, và mặc dù nó không phải là giải pháp hoàn chỉnh, nhưng nó đủ để thuyết phục một số người dùng bắt đầu sử dụng.

01 OpenAI định nghĩa bản cập nhật lần như thế nào?

Danh sách tính năng chính thức của ChatGPT Images 2.0 bao gồm: tốc độ nhanh hơn, hiển thị văn bản chính xác hơn, hỗ trợ đa ngôn ngữ và chế độ Tư duy mới. Tuy nhiên, chỉ gọi Images 2.0 là "trình tạo hình ảnh tốt hơn" rõ ràng đã đánh giá thấp tham vọng của OpenAI.

OpenAI định vị sản phẩm này như một giải pháp được thiết kế đặc biệt để thu hẹp "khoảng cách ý định" trong việc tạo ảnh bằng AI. Khoảng cách ý định đề cập đến sự khác biệt lâu nay giữa những gì người dùng muốn và những gì cuối cùng được tạo ra.

Đằng sau điều này là một sự thay đổi cơ bản:

Trước đó: Bạn mô tả → Trí tuệ nhân tạo tạo ra

Hình ảnh 2.0: Bạn mô tả → AI hiểu được ý định thực sự của bạn → AI tự động nghiên cứu và lên kế hoạch bố cục → AI tạo ra hình ảnh và tự kiểm duyệt trước khi gửi.

Hai bước bổ sung ở giữa mới chính là trọng tâm thực sự lần.

02 Mô hình tư duy: Nó đang làm gì?

Theo OpenAI, chế độ Tư duy (Thinking mode) mang lại cho mô hình ba khả năng mới:

Tìm kiếm liên kết : Khi nhận được nhiệm vụ, mô hình có thể chủ động truy xuất tham khảo liên quan thay vì chỉ dựa vào dữ liệu huấn luyện. Điều này có nghĩa là nó có thể xử lý các nhu cầu trực quan liên quan đến hướng dẫn thương hiệu, thông tin sản phẩm mới nhất và các sự kiện hiện tại.

Tạo song song nhiều sơ đồ : Tạo tối đa tám hình ảnh nhất quán, duy trì "tính nhất quán về nhân vật và đối tượng" chỉ với một lệnh duy lần . Điều này thể hiện sự thay đổi đáng kể trong quy trình làm việc đối với việc sản xuất hàng loạt bảng phân cảnh truyện tranh, hình ảnh sê-ri trên mạng xã hội và tài liệu thương hiệu.

Tự kiểm tra trước khi tạo : Mô hình tự kiểm tra bản nháp của mình để đảm bảo đáp ứng các yêu cầu trước khi tạo ra sản phẩm cuối cùng. Bước này hoàn toàn bị thiếu trước đây — bất cứ thứ gì AI tạo ra đều là chính nó, không có bất kỳ quy trình "kiểm soát chất lượng" nào.

Sự kết hợp của ba yếu tố này làm cho toàn bộ quy trình làm việc giống với một trợ lý thiết kế hơn là một công cụ máy móc "nhận chỉ dẫn và cho ra kết quả tương ứng".

Chế độ Tư duy hiện chỉ khả dụng cho người dùng ChatGPT Plus, Pro và Business. Người dùng miễn phí sử dụng chế độ cơ bản, có logic tạo báo cáo và kết quả khác. Điều này đã gây nhầm lẫn trong nhiều bài đánh giá, dẫn đến sự khác biệt đáng kể trong các kết luận so sánh.

03 Hiển thị văn bản: Tại sao đây lại là bước tiến bị đánh giá thấp nhất?

Công nghệ tạo ảnh bằng AI đã phát triển trong nhiều năm, nhưng việc hiển thị văn bản luôn là điểm yếu rõ ràng nhất của nó. Lý do nằm ở chính kiến trúc kỹ thuật: các mô hình khuếch tán truyền thống tạo ra hình ảnh trên cơ sở từng pixel, và thông tin văn bản chiếm tỷ lệ một tỷ lệ rất nhỏ trong dữ liệu huấn luyện, do đó mô hình hầu như không có cơ hội "học" cách hoạt động của văn bản.

Bước tiến vượt bậc của Images 2.0 nằm ở khả năng xử lý nhiệm vụ trước đây hầu như không thể thực hiện được:

• Thực đơn của nhà hàng hoàn toàn chính xác về tên món ăn, giá cả và cách trình bày.

• Hình ảnh chụp màn hình giao diện người dùng chi tiết với cấu trúc phân cấp văn bản rõ ràng.

• Đồ họa thông tin đa ngôn ngữ, bao gồm tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Hindi và tiếng Bengali.

Điểm cuối cùng này vô cùng quan trọng đối với người dùng Trung Quốc. Một khoảng cách ngôn ngữ tiềm ẩn đã tồn tại từ lâu trong việc sản xuất nội dung hình ảnh bằng AI: người dùng nói tiếng Anh có thể sử dụng AI để tạo ra các áp phích quảng cáo và tài liệu thương hiệu chính xác, trong khi người dùng không nói tiếng Anh thường đối diện lỗi chính tả và ký tự bị biến dạng, buộc họ phải bỏ cuộc hoặc tìm kiếm sự trợ giúp của con người.

Nếu Images 2.0 thực sự giải quyết được vấn đề này một cách ổn định, về cơ bản nó sẽ cung cấp khả năng sản xuất hình ảnh chuyên nghiệp một cách công bằng hơn cho người dùng không nói tiếng Anh trên toàn thế giới. Đối với người hành nghề thiết kế và các doanh nghiệp vừa và nhỏ ở Đông Nam Á, Nam Á và Đông Á, điều này sẽ tạo ra sự thay đổi thực sự trong quy trình làm việc.

Tất nhiên, vẫn còn một khoảng cách giữa "tiến bộ đáng kể" và "giải quyết hoàn toàn". Kết quả thử nghiệm cho thấy việc hiển thị bằng các ngôn ngữ không phải tiếng Anh vẫn còn chưa ổn định, với tỷ lệ lỗi cao hơn trong các bố cục phức tạp so với tiếng Anh.

04 Vấn đề kiến trúc: Tại sao OpenAI không giải đáp điều này?

Tại buổi họp báo trước khi ra mắt, OpenAI đã từ chối trả lời các câu hỏi về kiến trúc mô hình cơ bản của Images 2.0, không đề cập đến việc đó là mô hình khuếch tán hay mô hình tự hồi quy.

Các mô hình khuếch tán truyền thống có giới hạn cấu trúc trên về khả năng hiển thị văn bản, trong khi khả năng hiểu văn bản và thực hiện lệnh của Images 2.0 đã vượt qua giới hạn này nhìn lên hiệu suất.

Một giả thuyết hợp lý là Images 2.0 được tích hợp độ sâu hơn với kiến trúc mô hình ngôn ngữ của GPT-40 so với thời kỳ DALL-E, và khả năng xuất hình ảnh của nó gần giống với một "phần mở rộng" của mô hình ngôn ngữ hơn là một hệ thống tạo hình ảnh độc lập.

Nhưng đây chỉ là suy đoán. Quyết định không tiết lộ thông tin này của OpenAI có thể là do cân nhắc về cạnh tranh thương mại, hoặc cũng có thể là do mô hình vẫn đang trong quá trình hoàn thiện. Điều duy nhất chúng ta có thể chắc chắn là hiệu năng của nó trên một số nhiệm vụ nhất định đã vượt quá khả năng dự đoán của các phân loại kiến trúc hiện có.

05 Chi tiết bài kiểm tra Grayscale: Tên mã "băng keo"

Trước khi ra mắt chính thức, Images 2.0 đã âm thầm ra mắt nền tảng thử nghiệm AI của bên thứ ba LM Arena với tên mã "duct tape", nơi nó hoạt động công khai trong vài tuần để thu thập phản hồi thực tế từ người dùng.

Chi tiết này phản ánh sự thay đổi trong chiến lược phát hành sản phẩm của OpenAI, chuyển từ "giữ lại những bước tiến lớn và phát hành chúng chỉ bằng một cú nhấp chuột" sang "cho phép người dùng thực dùng thử trước khi chính thức ra mắt". Đây là một cách tiếp cận được thiết kế bài bản hơn và kiểm soát rủi ro tốt hơn.

Tên mã "duct tape" (băng dính) tự nó đã rất thú vị; băng dính gợi lên sự kết nối tạm thời, dùng lực để dán hai phần không khớp lại với nhau. Đây có thể chỉ là một tên nội bộ tùy ý, nhưng nó cũng có thể cho thấy OpenAI vẫn giữ thái độ khiêm tốn nhất định đối với phiên bản hiện tại: đó là một giải pháp theo từng giai đoạn, chứ không phải là đích đến cuối cùng.

06 Bức tranh cạnh tranh: Đối thủ thực sự không ở giữa chặng đường

Trên thị trường, Google Gemini 3 Pro Image, ra mắt vào tháng 2 năm 2026, cũng có khả năng nhúng văn bản vào hình ảnh và sánh ngang với Images 2.0 trong một số nhiệm vụ. Tuy nhiên, Midjourney vẫn có những ưu điểm độc đáo riêng trong việc tạo phong cách nghệ thuật.

Tuy nhiên, việc mô tả cuộc thi này như một "cuộc chiến giữa các mô hình tạo ảnh" là hoàn toàn sai lầm.

Images 2.0 thực sự đang chiếm lĩnh thị trường của một loại công cụ khác: trình chỉnh sửa mẫu của Canva, khả năng thiết kế nhanh của Adobe Express và nhu cầu về tài liệu có độ phức tạp thấp của các studio thiết kế nhỏ. Bản thân OpenAI đã chỉ rõ rằng các kịch bản ứng dụng mục tiêu của họ là quảng cáo địa phương hóa, đồ họa thông tin, nội dung giáo dục và tài liệu thương hiệu—những yếu tố cơ bản hàng ngày của thiết kế thương mại, chứ không phải là những thứ nằm ngoài phạm vi sáng tạo nghệ thuật.

Định vị này có nghĩa là người dùng tiềm năng của nó không chủ yếu là các nhà thiết kế sáng tạo, mà là những người cần sản xuất lượng lớn tài liệu hình ảnh mỗi ngày nhưng không có nguồn lực thiết kế chuyên dụng: người điều hành thương hiệu, chuyên gia tiếp thị, biên tập viên nội dung và các doanh nhân độc lập.

07 Vấn đề chưa được giải quyết

Tính ổn định hiển thị: Tình trạng không ổn định vẫn tiếp diễn khi hiển thị văn bản bằng các ngôn ngữ không phải tiếng Anh, và tỷ lệ lỗi đối với các bố cục phức tạp ngoài tiếng Anh vẫn cao hơn dự kiến. Vẫn còn một khoảng cách đáng kể giữa "sự cải thiện" và "giải quyết hoàn toàn vấn đề".

Ngày chốt dữ liệu: Dữ liệu huấn luyện của mô hình tính đến tháng 12 năm 2025. Mặc dù có thể tìm kiếm mẫu tư duy trực tuyến, nhưng cơ chế liên kết chất lượng tìm kiếm và chất lượng hình ảnh cuối cùng vẫn chưa rõ ràng. Kết quả có thể bị sai lệch đối với các ứng dụng trực quan yêu cầu tham chiếu đến các sự kiện hoặc dữ liệu mới nhất.

Bảo mật nội dung: OpenAI đặc biệt nhấn mạnh vào việc đóng dấu bản quyền hình ảnh và giám sát nội dung theo thời gian thực. Bối cảnh nội dung hình ảnh do AI tạo ra đã được sử dụng cho mục đích tuyên truyền chính trị và phát tán thông tin sai lệch. Khả năng tạo ra nội dung ngày càng lớn và rủi ro lạm dụng khó phát hiện hơn là hai mặt của cùng một vấn đề. Chỉ riêng việc cải tiến công nghệ không thể giải quyết được vấn đề này.

08 Kết luận

Kể từ khi ChatGPT Images 2.0 ra mắt, những hình ảnh được lan truyền nhiều nhất trên mạng xã hội là những bản demo ấn tượng: thực đơn hoàn hảo, áp phích đa ngôn ngữ chính xác và kịch bản mạch lạc. Hầu hết chúng được tạo ra trong điều kiện tối ưu bởi những người dùng có kinh nghiệm. Do đó, trong thực tế sử dụng, kết quả có thể không nhất quán hoặc trau chuốt như vậy.

Hình ảnh bên dưới là một bức tranh có chữ Hán do tác giả tạo ra từ ảnh chụp một chú mèo con. Tác giả thậm chí còn đặt cho chú mèo con một cái tên tiếng Trung: Xiao Jin. Văn bản trong ảnh hoàn toàn chính xác; không có lỗi chính tả. Tuy nhiên, chất lượng hình ảnh rõ ràng kém hơn so chính thức.

OpenAI đang giải quyết một vấn đề khó khăn nhưng đúng đắn. Việc hiển thị văn bản đã chuyển từ trạng thái "gần như vô dụng" sang "dễ sử dụng", vượt qua ngưỡng sử dụng thực tế.

Khoảng cách về "ý định" chưa hoàn toàn biến mất. Nhưng nó đã thu hẹp lại, thu hẹp đủ để một số người có thể bắt đầu xem xét lại quy trình làm việc của mình.

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Emphasis Next" (ID: leo89203898) , tác giả: Xinjian, với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan