Đạt điểm cao trong các bài kiểm tra hiệu năng, nhưng lại thể hiện kém trong các thử nghiệm thực tế, GPT Image 1.5 đã bị chỉ trích nặng nề; tương lai của Ultraman có vẻ ảm đạm.

12-17

Bài viết này được dịch máy

Xem bản gốc

Vào đêm khuya, OpenAI đã tung ra "át chủ bài" của mình: GPT Image 1.5 hoàn toàn mới, đứng đầu hai bảng xếp hạng, vượt trội hơn hẳn Google Nano Banana Pro. Tuy nhiên, các thử nghiệm trực tuyến đã vấp phải nhiều chỉ trích.

Ngay khi Google chuẩn bị phát hành Gemini 3.0 Flash, OpenAI đã tung ra một thông báo gây chấn động.

Mới đây, OpenAI đã tung ra "món quà Giáng sinh bất ngờ" của mình - sự ra mắt chính thức của mô hình xử lý hình ảnh hàng đầu mới, ChatGPT Images.

Lần này, OpenAI đã tối đa hóa khả năng xử lý ảnh thô của mình:

Điều khiển chính xác : Khả năng hiểu lệnh đã được cải thiện đáng kể, thực sự đạt được khả năng "chỉ vào và thay đổi chính xác".

Người đam mê chi tiết : Các chi tiết hình ảnh được bảo toàn nguyên vẹn và kết cấu cực kỳ tinh tế.

Thế hệ tiếp theo nhanh chóng : Tốc độ được tăng lên gấp 4 lần so với thế hệ trước.

Hơn nữa, bắt đầu từ hôm nay, tất cả người dùng ChatGPT miễn phí đều có thể bắt đầu sử dụng, và các nhà phát triển cũng có thể trực tiếp gọi API GPT Image 1.5.

Trên đấu trường LMARaena, nó dường như bất khả chiến bại:

Wenshengtu dẫn đầu danh sách với 1264 điểm Elo, vượt qua Google Nano Banana Pro (NBP).

Chỉnh sửa ảnh : chatgpt-image-latest đã vượt qua NBP với cách biệt 3 điểm để giành chức vô địch, trong khi GPT Image 1.5 xếp thứ 4 sát nút.

Trong lĩnh vực Phân tích Trí tuệ Nhân tạo, họ thậm chí còn giành giải nhất ở hai hạng mục.

Tuy nhiên, sự đảo chiều diễn ra quá nhanh.

Sau khi được cư dân mạng kiểm chứng, người ta nhận thấy đây dường như là một trường hợp điển hình khác của "điểm cao nhưng năng lực thấp".

Theo so sánh của Yuchen Jin, khả năng xử lý ảnh thô của GPT về cơ bản ngang bằng với Google NBP, nhưng khả năng xử lý thông minh thì hoàn toàn bị vượt trội.

Đặc biệt khi xử lý các ghi chú viết tay, GPT Image 1.5 trông có vẻ ổn, nhưng thực tế lại hoàn toàn sai.

Trái: Hình ảnh ChatGPT; Phải: Nano Banana Pro

Sự khác biệt này đã gây ra những lời phàn nàn gay gắt trong cộng đồng.

Một số người đã thẳng thắn tuyên bố: "Google Nano Banana Pro vẫn là số một."

Một số người thậm chí còn chỉ trích nó, nói rằng, "Đây có thể lại là một bản phát hành đáng xấu hổ và vô nghĩa khác từ OpenAI."

Đầu tiên, GPT-5.2 nhận được nhiều đánh giá tiêu cực trên mạng, và sau đó GPT Image 1.5 đã không thể đánh bại "quả chuối" của Google trong một thử nghiệm thực tế.

Dường như OpenAI đã hoàn toàn thất bại trong trận chiến cam go cuối năm này trước Google...

GPT Image 1.5 ra mắt, một bước tiến vượt bậc.

Chúng ta hãy quay lại chủ đề chính.

Theo blog chính thức, ChatGPT hiện đáp ứng các yêu cầu chỉnh sửa hình ảnh tốt hơn đáng kể so với trước đây.

Ngay cả với những chi tiết nhỏ nhất, chỉ thay đổi những phần cần thay đổi, đồng thời đảm bảo các yếu tố như ánh sáng, bố cục và ngoại hình nhân vật vẫn nhất quán trong quá trình nhập, xuất và chỉnh sửa tiếp theo.

Một hình ảnh duy nhất từ nhà nghiên cứu Boyuan Chen của OpenAI xác nhận rằng hình ảnh GPT, có tên mã là "Hazelnut", đã được phát hành.

Bằng cách này, chúng ta có thể đạt được kết quả thực sự đáp ứng được mong muốn của mình.

Dù là chỉnh sửa ảnh hữu ích, thử quần áo và kiểu tóc, hay các bộ lọc phong cách và biến đổi ý tưởng mà vẫn giữ được bản chất của hình ảnh gốc, ChatGPT đều có thể xử lý tất cả.

Bản cập nhật này biến ChatGPT thành một studio sáng tạo di động: một nơi bạn có thể làm việc chăm chỉ và thỏa sức sáng tạo.

Ultraman đã đến vào dịp Giáng sinh...

Chỉnh sửa chi tiết, nhiều vòng xử lý ảnh.

GPT Image 1.5 vượt trội trong nhiều "thao tác" khác nhau, bao gồm thêm, xóa, kết hợp, hợp nhất và thay thế.

Do đó, nó có thể thay đổi hình ảnh mà không làm mất đi "cảm giác" ban đầu.

Chỉ với hai người và chú chó của họ, GPT Image 1.5 đã ghi lại chính xác sự nhàm chán mà họ cảm thấy khi bị buộc phải "làm việc" tại bữa tiệc sinh nhật của mình.

Đề bài: Hãy tạo một bức ảnh theo phong cách phim thập niên 2000, ghép hai người đàn ông và con chó vào đó, và ghi lại hình ảnh họ đang tỏ vẻ chán nản tại một bữa tiệc sinh nhật của trẻ con.

Sau đó, dựa trên hình ảnh này, ChatGPT có thể được "chỉnh sửa" theo chuỗi, chẳng hạn như thêm một đám trẻ nghịch ngợm bối cảnh.

Yêu cầu: Thêm một đám trẻ con nghịch ngợm bối cảnh, kiểu trẻ hay ném đồ đạc lung tung, la hét và làm mọi thứ rối tung lên.

Tiếp theo, AI đã chỉnh sửa chính xác khuôn mặt người đàn ông bên trái thành khuôn mặt hoạt hình và chú chó con thành một món đồ chơi nhồi bông.

Yêu cầu: Thay đổi người đàn ông bên trái thành phong cách hoạt hình Nhật Bản cổ điển vẽ tay, con chó thành thú nhồi bông, và giữ nguyên người đàn ông bên phải và bối cảnh.

Sau đó, hãy cho tất cả bọn họ mặc những bộ đồ được OpenAI thiết kế riêng và điều khiển họ. (P/S: Cách Mark Chen xử lý phần cổ trông hơi kỳ lạ.)

Gợi ý: Cho tất cả bọn họ mặc áo len OpenAI, và họ sẽ trông như thế này.

Điều tuyệt vời hơn nữa là ChatGPT có thể thay đổi bối cảnh chỉ bằng một cú nhấp chuột, ngay lập tức biến một bữa tiệc sinh nhật thành buổi phát trực tiếp của OpenAI.

Yêu cầu: Bây giờ hãy loại bỏ hai người đàn ông, chỉ để lại con chó, rồi đưa nó vào luồng phát trực tiếp của OpenAI, sao cho trông tương tự như hình ảnh đính kèm.

Lấy trượt ván làm một ví dụ khác, hãy để ChatGPT tạo ra một khung cảnh trượt ván ở Los Angeles, theo phong cách nhiếp ảnh đường phố tài liệu cuối những năm 1990.

Yêu cầu: Ảnh phong cảnh Los Angeles chụp cảnh trượt ván, theo phong cách sau: nhiếp ảnh đường phố tài liệu cuối những năm 90, chụp bằng phim màu 35mm, máy ảnh Leica M-style rangefinder với ống kính 35mm, giấy màu Kodak Portra 400, ánh sáng ban ngày tự nhiên, độ tương phản nhẹ, màu sắc mềm mại và chân thực, có hạt phim, làm mềm nhẹ các cạnh, bố cục tự nhiên theo quan sát, không HDR, không làm sắc nét kỹ thuật số hiện đại, không ánh sáng điện ảnh.

Dựa vào bức ảnh này làm mẫu, tôi đã lập tức đổi trang phục của người trượt ván thành màu "đỏ".

Yêu cầu: Đổi quần áo của người trượt ván thành màu đỏ và mũ của anh ta thành màu vàng. Biển báo giới hạn tốc độ nên ghi là 15, và chiếc xe tải đó nên là xe cứu hỏa.

Vẫn chưa đủ sôi động? Một nhóm người xuất hiện từ bên trái, một con đại bàng từ bên phải bay tới, và một chiếc khinh khí cầu được thêm vào trên không trung. Bạn có thể có bất cứ thứ gì bạn muốn.

Đề bài: Bên trái là một nhóm người đứng xem; bên phải là một con đại bàng đậu trên đường; và ở phía xa là một khinh khí cầu đang bay phía trên.

Tiếp theo, hình ảnh này sẽ được in trực tiếp lên áo phông bằng phần mềm ChatGPT.

Yêu cầu: Lấy một chiếc áo phông dùng để phơi quần áo và in toàn bộ hình ảnh tôi vừa đề cập lên đó, in phủ kín toàn bộ bề mặt.

Cuối cùng, ChatGPT cũng có thể thuyết phục vận động viên trượt ván mặc chiếc áo phông này.

Yêu cầu: Bạn có thể vui lòng đưa chiếc áo phông đang phơi trên dây cho người chơi ván trượt kia được không?

Từ hai ví dụ minh họa ở trên, dễ dàng nhận thấy khả năng chỉnh sửa hình ảnh chính xác của ChatGPT với sự hỗ trợ của GPT Image 1.5.

Nó cho phép bạn thực hiện các thay đổi chính xác tại bất kỳ vị trí nào bạn chỉ định, và duy trì tính nhất quán ngay cả sau nhiều lần chỉnh sửa.

Khả năng sáng tạo vượt trội, sự tinh tế trong từng chi tiết.

Chỉnh sửa là yếu tố cơ bản, nhưng sự sáng tạo của GPT Image 1.5 tỏa sáng đặc biệt rực rỡ trong quá trình "biến đổi lớn".

Nó có thể hiện thực hóa các ý tưởng bằng cách thay đổi và bổ sung các yếu tố—như văn bản và kiểu chữ—trong khi vẫn giữ lại các chi tiết quan trọng.

Những phép biến đổi này hiệu quả với cả những khái niệm đơn giản và những ý tưởng phức tạp. Và với tính năng Hình ảnh ChatGPT mới, bạn có thể bắt đầu ngay lập tức bằng cách sử dụng các kiểu và ý tưởng được thiết lập sẵn, mà không cần đến lời nhắc.

Ví dụ, hãy tải lên một bức ảnh của hai người để tạo một poster theo phong cách phim cho ChatGPT.

Đề bài: Sử dụng hai bức ảnh này để tạo một áp phích phim theo phong cách Hollywood thời kỳ hoàng kim cho bộ phim *Codex*. Thay đổi trang phục tùy ý , miễn là phù hợp với thời đại. Đổi tên các diễn viên thành Wojciech Zaremba (trái) và Greg Brockman (phải). Đạo diễn: Sam Altman, sản xuất: Fidji Simo. Tên công ty sản xuất: A Feel the AGI Pictures Production.

Như bạn thấy, hình ảnh sáng tạo được tạo ra ngay lập tức toát lên một sức hút mạnh mẽ. Hơn nữa, các chi tiết của văn bản trong hướng dẫn được tái hiện hoàn hảo trong hình ảnh.

Vậy thì hãy để Ultraman hóa thân thành một huấn luyện viên thể hình thập niên 80, với mái tóc bồng bềnh, băng đô và băng đeo cổ tay.

Yêu cầu: Biến tôi thành một huấn luyện viên thể dục theo phong cách băng video VHS thập niên 80 kinh điển, giữ nguyên cấu trúc và biểu cảm khuôn mặt ban đầu. Áp dụng các hiệu ứng ảnh và video thập niên 80 chân thực trực tiếp lên khuôn mặt tôi: ánh sáng dịu nhẹ, hơi mờ, một chút nhiễu, hiện tượng lem màu tinh tế và những đường quét mờ ảnh hưởng đến tông màu da và chi tiết cạnh. Trang phục nên là trang phục tập luyện rực rỡ của thập niên 80, với băng đô vải bông, băng cổ tay và quần áo thể thao màu neon. Tóc nên được tạo kiểu bồng bềnh theo phong cách thập niên 80, giữ nguyên độ dài và kết cấu tự nhiên. Có thể thêm lớp trang điểm tươi sáng, mang hơi hướng retro nếu phù hợp với tổng thể. Sử dụng ánh sáng studio dịu nhẹ, màu pastel, kết hợp với hiệu ứng VHS hơi bị xuống cấp, để tạo ra bầu không khí tín hiệu analog cho cả khuôn mặt và cơ thể. Hình ảnh nên thể hiện tôi đang hướng dẫn một nhóm tập thể dục nhịp điệu. Thêm văn bản liên quan trên màn hình.

Phải nói rằng ChatGPT đã nắm bắt được bản chất của thập niên 1980.

ChatGPT thậm chí có thể tạo ra dữ liệu theo phong cách "búp bê quyến rũ" chỉ với một cú nhấp chuột.

Yêu cầu: Tạo một đầu người 3D cách điệu cao, thể hiện nhân vật chính là người được nuông chiều, quyến rũ và hoàn toàn thờ ơ: mắt khép hờ, lông mày nhướn lên và khóe miệng hơi cong lên, toát lên vẻ "cô nàng đỏng đảnh" kinh điển. Làn da nên có kết cấu mịn màng, bóng bẩy, giống như gel, với những điểm nhấn mạnh mẽ trên gò má và mũi, bắt được ánh sáng studio dịu nhẹ. Phấn mắt nên được phân cực ba chiều, chuyển dần từ tím sang xanh lam với các điểm phản chiếu rõ nét. Tóc nên dày, mượt và bóng, được tạo kiểu thành những lọn sóng hoặc búi tóc gọn gàng, phản chiếu ánh sáng như nhựa acrylic được đánh bóng. Thêm một chiếc khuyên mũi nhỏ mạ crôm (khuyên đinh hoặc khuyên tròn) với độ bóng kim loại mài mờ. Đầu người nên nổi trên bối cảnh trắng tinh khiết, trung tính , nghiêng một góc 15 độ, giống như hình ảnh render sản phẩm cao cấp. Sử dụng ánh sáng studio sáng, khuếch tán, tránh bóng đổ gắt, nhấn mạnh độ bóng, cảm giác giống như nhựa và tán xạ lần, đạt được độ sâu chân thực. Tâm lý cần thể hiện sự kiêu kỳ, thời thượng và vẻ lạnh lùng xa cách. Góc máy nên là ảnh chân dung cận cảnh, nhìn thẳng vào ống kính, với tiêu cự 85mm. Chất liệu cần phải là da, môi và tóc siêu mịn, bóng bẩy, kiểu hoạt hình, giống như nhựa.

Ultraman lập tức biến hình thành một "cô gái sắc sảo và cá tính"!

Điều thú vị hơn nữa là nhân vật (Ultraman) cũng có thể được biến thành một vật phẩm may mắn hữu ích.

Yêu cầu: Hãy biến tôi thành một mặt dây chuyền được điêu khắc từ thủy tinh đúc bóng loáng, với lớp sơn mài bóng cao cấp phản chiếu ánh sáng từ mọi góc độ. Cảm giác khi chạm vào phải cực kỳ mịn màng và mát lạnh, trọng lượng của nó vừa thể hiện sự mong manh vừa mang vẻ đẹp vượt thời gian. Lớp phủ nên có chất lượng men bóng, nằm giữa gốm sứ và kem phủ kẹo – phản chiếu cao độ, cho phép những điểm nhấn nhỏ lấp lánh như những tia lửa mềm mại trên các bề mặt cong. Sử dụng các chi tiết kim loại tinh tế để làm nổi bật các đường nét và kết cấu – các chấm, đường kẻ và các họa tiết chạm khắc vàng bạc lấp lánh khi chuyển động. Chúng nên được làm bằng kim tuyến mịn hoặc hạt siêu nhỏ để tạo cảm giác thủ công; độ lấp lánh nên được tạo thành nhiều lớp, không phẳng, cho phép ánh sáng dường như nhảy múa trên các chi tiết nổi. Toàn bộ tác phẩm nên toát lên vẻ sang trọng cổ điển, hơi sến: những khối màu rực rỡ tương phản với các điểm nhấn lấp lánh, vừa tinh nghịch vừa có chủ ý. Các khu vực cong đón ánh sáng nên có độ bóng óng ánh tinh tế – nhuốm màu vàng, hồng và ngọc trai. Kết cấu bề mặt nên trông giống như đồ ăn được, như kẹo tráng men hoặc kẹo tan sụp đổ khuôn. Được treo bởi những chiếc vòng vàng mỏng manh và những sợi dây mảnh, món đồ trang trí này nên lơ lửng một cách nhẹ nhàng đầy kịch tính, vừa mang không khí lễ hội vừa mang tính điêu khắc. Nó nên là một tác phẩm mang tính biểu tượng nhưng cũng hài hước, một món đồ nổi bật lấp lánh dưới ánh đèn cây thông Noel hay ánh đèn studio—thể hiện sự thanh lịch phóng khoáng và nỗi hoài niệm về đồ thủ công.

Đây là thiết kế hình ông già Noel.

Hãy cùng xem bộ trang phục màu hồng mang tính biểu tượng của Ultraman trong bài phát biểu tại WWDC của Apple nhìn lên nó bây giờ.

Yêu cầu: Sử dụng hình ảnh đã tải lên làm tham khảo chính. Biến đổi nó thành một quảng cáo thời trang tối giản kiểu Mỹ thập niên 90. Giữ nguyên hoàn toàn các đặc điểm khuôn mặt, tỷ lệ, tư thế và biểu cảm của chủ thể. Giữ nguyên màu sắc ban đầu của áo polo cổ đôi. Phong cách: Sạch sẽ, tinh tế, phong cách tạp chí thời trang cao cấp. Trang phục: Kiểu áo polo hai lớp (một áo polo mặc ngoài áo polo khác), kiểu dáng cổ điển, màu sắc trung tính hoặc hơi nhạt. Bối cảnh: Bối cảnh studio liền mạch, bố cục đơn giản. Ánh sáng: Ánh sáng studio dịu nhẹ, đều với bóng mờ; tông màu da tự nhiên. Tâm lý: Tự tin, thoải mái và vượt thời gian. Thương hiệu: GPT-Shirt. Phong cách nhiếp ảnh: Chất lượng phim định dạng trung bình, hạt nhiễu nhẹ, độ tương phản vừa phải.

Còn về khí chất, điều đó thực sự phụ thuộc vào chính bản thân người đó.

Một số trò chơi "hóa trang Barbie" phổ biến nhất trong giới bé gái giờ đây đã có thể chơi được trên ChatGPT.

Yêu cầu: Đặt anh ấy vào giao diện trò chơi phối đồ thập niên 2000, và tô màu toàn bộ hoàn cảnh thành màu hồng. Đảm bảo kính râm cũng nằm trong bộ trang phục.

Trang phục của Ultraman hoàn toàn phù hợp với nhân vật của anh ấy. Ngay cả chiếc kính râm mà anh ấy yêu cầu cũng được thể hiện trong bức ảnh.

ChatGPT cũng có thể biến Ultraman thành một tác phẩm kinh điển – "Cô gái đeo khuyên tai ngọc trai".

Yêu cầu: Hãy đặt tôi vào trong bức tranh "Cô gái đeo khuyên tai ngọc trai".

Anh ấy cũng có thể làm người đại diện quảng cáo cho các loại đồ uống.

Đề bài: Sử dụng khuôn mặt người đàn ông trong ảnh đính kèm để tạo một quảng cáo nước ngọt theo phong cách retro cho một loại đồ uống mới có tên "SOTA" (một loại nước ngọt mới). Khẩu hiệu nên là: "Không có gì nhân tạo cả." Phong cách phải tái hiện chân thực thời kỳ đó.

Sau một vòng trình diễn, ChatGPT Image đã thể hiện khả năng sáng tạo vượt trội hơn nữa. So với thiết kế chủ đạo theo phong cách Ghibli của GPT-4o, mô hình hình ảnh mới này mang tính đột phá hơn nhiều.

Phản hồi nhanh nhạy hơn với các lệnh của con người, tái tạo hoàn hảo lưới 6x6.

So với phiên bản đầu tiên của GPT Image, phiên bản 1.5 có khả năng thực thi lệnh tốt hơn.

Điều này cho phép chỉnh sửa chính xác hơn và tạo ra những bố cục gốc phức tạp hơn, đồng thời vẫn giữ nguyên mối quan hệ giữa các yếu tố như mong đợi.

Hãy cùng đi thẳng đến thử thách khó nhằn nhất — một lưới 6x6 với 36 phần tử, sử dụng GPT Image 1.5 với độ mượt và chính xác hoàn hảo, không thiếu một phần tử nào.

Gợi ý:

Tạo biểu đồ dạng lưới 6 cột, 6 hàng với nội dung sau:

Hàng 1: Chữ cái Hy Lạp β, quả bóng bãi biển, quả chanh, robot, bể cá, con ếch
Hàng 2: Bọ ngựa, đồng hồ cao cấp, bồn tắm, kính râm, bướm nhiều màu sắc, phong bì
Hàng 3: Tem, khung ảnh, bánh bao hấp, từ "phép màu", ván trượt tuyết, chữ Z
Hàng 4: Bồn cầu, Token tàu điện ngầm, Biểu tượng tắt tiếng, Nước hoa, Chuồn chuồn, Mũ bảo hiểm trượt ván
Hàng 5: Biểu tượng Bluetooth, số 13, trái tim màu xanh lá cây, khối Rubik, Canada Goose, mũ bảo hiểm của người lính
Hàng 6: Chó trắng, áo phao, nút thắt, bàn phím, hộp khăn giấy, số 14

Trái: Mẫu mới; Phải: Mẫu cũ

Hiển thị văn bản rõ nét, lập trình xuất trực tiếp

Mẫu máy mới đã tiến thêm một bước nữa trong việc hiển thị văn bản, có khả năng xử lý văn bản dày đặc hơn với kích thước phông chữ nhỏ hơn.

Hình ảnh sau đây minh họa khả năng hiển thị Markdown đáng sợ của GPT-5.2 và ChatGPT.

Gợi ý:

Biểu đồ lượng calo bên dưới vô cùng chi tiết.

Gợi ý:

ChatGPT thậm chí có thể biên dịch các giao diện lập trình phức tạp.

Gợi ý:

Những cải tiến hơn nữa

Mẫu mới cũng có những cải tiến ở các khía cạnh khác, giúp kết quả đầu ra trực tiếp và hữu ích hơn.

Ví dụ, nó có thể vẽ nhiều khuôn mặt rất tốt, và chúng trông tự nhiên hơn.

ChatGPT Image tạo ra một bức ảnh về Luân Đôn vào những năm 1970. Sự khác biệt giữa phiên bản mới (bên trái) và phiên bản cũ (bên phải) rất rõ ràng.

Phiên bản 1.5 chi tiết và chân thực hơn về các đặc điểm khuôn mặt.

Yêu cầu: Tạo một cảnh đường phố ở Chelsea, London vào những năm 1970, với hình ảnh chân thực, sắc nét và cực kỳ chi tiết. Đường phố nên đông đúc người, và có một chiếc xe buýt với quảng cáo "ImageGen 1.5", cùng với logo OpenAI và phụ đề "Tạo ra những gì bạn tưởng tượng". Phong cách tổng thể nên là nhiếp ảnh nghiệp dư siêu thực, giống như một bức ảnh chụp nhanh bằng iPhone…

Ví dụ, về "cảnh tượng hoành tráng" của một đám đông khổng lồ, phiên bản mới (dưới cùng bên trái) trông thực tế và tự nhiên hơn, trong khi phiên bản cũ (dưới cùng bên phải) thoạt nhìn có vẻ lỗi thời.

Yêu cầu: Một cảnh tượng khổng lồ với hàng chục nghìn người tại Cầu Cổng Vàng. Mọi khuôn mặt trong đám đông đều hiện rõ.

Một thợ lặn chơi piano dưới nước; phiên bản mới (bên trái) chân thực hơn, mang đến cảm giác gần gũi với con người hơn.

Đề bài: Một thợ lặn chơi piano dưới nước, trong khi các nàng tiên cá đang quan sát. Phong cách nhiếp ảnh nghiệp dư siêu thực.

Hãy để nó tạo ra một bức ảnh bị lóa. Trong hình so sánh bên dưới, bạn có thể thấy ngay rằng hiệu ứng bên phải trông giả tạo.

Yêu cầu: Tạo một hình ảnh bao gồm một bức ảnh in cổ điển. Bức ảnh nên thể hiện một người đàn ông trẻ gốc Á và một người đàn ông trẻ da trắng trong một quán bar, cả hai đều đội mũ ông già Noel, một trong đó đang cầm đồ uống. Bức ảnh in nên có phản chiếu từ đèn flash máy ảnh. Nó cũng nên có một đường viền trắng mỏng rõ ràng và hơi nghiêng.

Để vươn tới những tầm cao mới

Để đánh giá hiệu năng, OpenAI đã chạy lại nhiều ví dụ từ bản phát hành ChatGPTImage 1.0.

Trong nhiều trường hợp, mô hình mới đã cho thấy những cải tiến đáng kể, mặc dù kết quả vẫn chưa hoàn hảo. Mặc dù phiên bản này thể hiện sự tiến bộ có ý nghĩa, nhưng vẫn còn nhiều chỗ để cải thiện trong các phiên bản tiếp theo.

Ví dụ, phiên bản mới (bên trái) thể hiện các mặt cắt ngang của sinh vật biển ở độ sâu khác nhau theo phong cách hoạt hình Nhật Bản, nhưng phong cách này rõ ràng không nhất quán với "phong cách hoạt hình Nhật Bản" như phiên bản cũ (bên phải).

Đề bài: Tạo một áp phích về các sinh vật biển sâu, thể hiện độ sâu khác nhau. Sử dụng hình ảnh mặt cắt dọc của đại dương, với phong cách hoạt hình Nhật Bản chi tiết và đẹp mắt.

Phiên bản mới (bên trái) cũng cho thấy sự hiểu sai rõ ràng về phong cách anime giả tưởng đen tối so với phiên bản cũ (bên phải):

Yêu cầu: Hãy vẽ cho tôi một bức chân dung theo phong cách anime giả tưởng đen tối.

OpenAI thừa nhận rằng khả năng tạo ra một số phong cách nghệ thuật nhất định của họ đã bị suy giảm so với các phiên bản trước.

Giải pháp là thử sử dụng các bộ lọc cài sẵn trong chức năng "Hình ảnh"; điều đó sẽ giúp ích. Ngoài ra, phiên bản trước của ChatGPT Images hiện đã được chuyển đổi thành GPT tùy chỉnh, vì vậy bạn có thể sử dụng trực tiếp phiên bản cũ.

Một hạn chế lớn khác là mô hình mới không thể chỉnh sửa ảnh nhóm lớn một cách đáng tin cậy (ảnh trên), và các đặc điểm khuôn mặt dễ bị biến dạng sau khi xử lý (ảnh dưới).

Yêu cầu: Bạn có thể cho tất cả mọi người mặc áo phông có in chữ "OpenAI" và làm cho mọi người mỉm cười được không?

Với số lượng người lớn, mô hình mới gặp khó khăn trong việc duy trì chính xác các đặc điểm khuôn mặt của từng cá nhân trong quá trình chỉnh sửa ảnh.

Một hạn chế lớn khác là việc hiển thị văn bản đa ngôn ngữ , điều này gây ra nhiều vấn đề.

Tôi đã đọc xong tiếng Trung Quốc rồi... chưa kể đến các ngôn ngữ không phải tiếng Anh như tiếng Ả Rập và tiếng Do Thái.

Đề bài: Bạn có thể vẽ sơ đồ liệt kê một số cụm từ thông dụng để gọi món ăn bằng tiếng Trung không?

API: Rẻ hơn 20%

GPT Image 1.5 trong API cung cấp tất cả các cải tiến tương tự như ChatGPT Images.

Ví dụ, nó duy trì tính nhất quán cao hơn trong logo thương hiệu và hình ảnh chủ đạo qua lần lần chỉnh sửa, lý tưởng cho các hoạt động tiếp thị và xây dựng thương hiệu như thiết kế đồ họa và logo, cũng như cho đội ngũ thương mại điện tử để tạo ra một bộ sưu tập sản phẩm hoàn chỉnh (các biến thể, bối cảnh và góc độ khác nhau) từ một hình ảnh nguồn duy nhất.

So với GPT Image 1, GPT Image 1.5 hiện rẻ hơn 20% cho cả đầu vào và đầu ra hình ảnh, do đó bạn có thể tạo và xử lý nhiều hình ảnh hơn với cùng một ngân sách.

Hiện nay, các doanh nghiệp và công ty khởi nghiệp thuộc nhiều lĩnh vực khác nhau, bao gồm công cụ sáng tạo, thương mại điện tử và phần mềm tiếp thị, đều đang sử dụng GPT Image 1.5.

Ultraman đích thân phát tín hiệu báo động khẩn cấp.

Bản cập nhật lần cũng là một phản hồi mạnh mẽ đối với Google.

Mới tháng trước, Altman đã khẩn cấp ban hành "báo động đỏ" vì Google Gemini đang chiếm lĩnh thị thị phần.

Tuy nhiên, vào thời điểm đó, Google vừa mới ra mắt mẫu sản phẩm chủ lực mới của mình, Gemini 3, và công cụ tạo ảnh Nano Banana Pro, trong đó Nano Banana Pro đã đứng đầu bảng xếp hạng LMARaena trong nhiều bài kiểm tra hiệu năng.

Đối diện áp lực không ngừng từ Google, OpenAI đã nhanh chóng đẩy mạnh tốc độ phát triển: khoảng năm ngày trước, họ đã phát hành GPT-5.2; giờ đây, họ tiếp tục cho ra mắt mô hình xử lý hình ảnh nâng cấp.

Bản cập nhật này từ OpenAI rõ ràng là một thách thức trực tiếp đối với Nano Banana Pro của Google , vốn có danh tiếng rất tốt trong giới lập trình viên.

Đối diện của OpenAI không chỉ có Google.

Vào tháng 8 năm nay, Qwen-Image đã hỗ trợ tạo văn bản tiếng Trung và tiếng Anh dễ đọc; Black Forest Labs cũng đã phát hành mô hình xử lý hình ảnh mã nguồn mởFlux , thể hiện khả năng ấn tượng của nó.

Cuộc chiến giành thị phần mô hình xử lý ảnh AI rõ ràng đã bước vào giai đoạn gay cấn, với mục tiêu rõ ràng: giành lấy thị trường doanh nghiệp.

Ultraman nhấn mạnh nhiều cải tiến và tính năng chỉnh sửa mới của mẫu máy mới.

Là CEO của bộ phận ứng dụng OpenAI, Fidji Simo đã khéo léo so sánh nó với Nano Banana Pro của Google, cho rằng lần là sự chuyển đổi từ văn bản đơn lẻ sang trải nghiệm AI năng động.

Cô ấy cho rằng rằng ChatGPT Images và các tính năng khác có thể rút ngắn khoảng cách giữa "những gì bạn nghĩ" và "những gì bạn nhận được".

Tư duy của con người vượt xa ngôn từ. Trên thực tế, những nguồn cảm hứng hấp dẫn nhất thường bắt đầu từ một bức tranh, một giai điệu, một chuyển động hoặc một hình mẫu trong tâm trí chúng ta. Nếu trí tuệ nhân tạo (AI) muốn giúp chúng ta phát huy hết tiềm năng của mình, nó phải sử dụng những cách thức mà chúng ta đã quen thuộc – để hiểu, để diễn đạt và để giao tiếp.

Fidji Simo tiết lộ rằng, ngoài công cụ tạo ảnh, OpenAI cũng đang nâng cấp toàn diện trải nghiệm hình ảnh của ChatGPT:

Trong vài tháng qua, tôi đã nói về sự phát triển của ChatGPT: nó đang chuyển mình từ một sản phẩm thụ động, chỉ dựa trên văn bản, thành một trợ lý thông minh, trực quan hơn, gắn bó chặt chẽ hơn với nhiệm vụ bạn muốn hoàn thành.
Việc chuyển đổi từ giao diện người dùng dạng văn bản thuần túy sang giao diện người dùng đa phương thức và năng động là một phần quan trọng của quá trình chuyển đổi này, và tôi rất hào hứng khi chứng kiến những bước phát triển này.

Fidji Simo tiết lộ rằng trong tương lai, người dùng sẽ thấy nhiều thông tin trực quan hơn và nguồn thông tin rõ ràng hơn khi tìm kiếm câu trả lời. Ví dụ, trong các trường hợp như chuyển đổi đơn vị hoặc kiểm tra tỷ số trận đấu, sơ đồ sẽ trực quan hơn so với văn bản.

Tuy nhiên, cư dân mạng trải nghiệm GPT Image 1.5 và Nano Banana Pro đã thẳng thắn nhận định rằng OpenAI "hết ý tưởng"lần:

Một meme với hình ảnh đầu ếch chế nhạo Ultraman đang bắt đầu lan truyền:

Hình ảnh Chú Ếch Buồn hay Pepe the Frog (bên trái) rất giống với hình ảnh quảng cáo của OpenAI (bên phải) – cùng bối cảnh, cùng dòng chữ, cùng ánh mắt và trang phục tương tự.

Điều này quả thực có một số hàm ý liên quan đến Ultraman.

Nhưng những lời chỉ trích gay gắt nhất đến từ cư dân mạng, những người đã trực tiếp "tát" vào mặt bài đăng của OpenAI:

OpenAI đã hoàn toàn ngừng hoạt động.

Với cùng một bộ lệnh, Nano Banana tạo ra hình ảnh chân thực và tự nhiên hơn so với GPT Image 1.5 , điều này cực kỳ có lợi cho các tài liệu quảng cáo thương mại điện tử.

Trong hình ảnh bên dưới, hai hình ảnh phía trên được tạo ra bởi GPT Image 1.5, và hai hình ảnh phía dưới được tạo ra bởi Nano Banana Pro.

Dòng chú thích ghi: "Một người đàn ông da trắng người Đức 53 tuổi trong phòng ngủ, một phòng ngủ kiểu Ý điển hình, với những hộp và sách chất đống trên kệ, một chiếc bàn bối cảnh với máy iMac và giấy tờ vương vãi xung quanh, mặc áo hoodie màu xám (có logo đơn giản), đeo nhẫn cưới và một chiếc vòng tay màu đỏ nhỏ trên cổ tay, nhìn thẳng vào máy ảnh theo phong cách tự nhiên, chân thực của nội dung do người dùng tạo ra."

Tuy nhiên, một số cư dân mạng bình luận rằng bức ảnh "Giáng sinh của Musk và Ultraman" do GPT Image 1.5 tạo ra trông rất chân thực, không có một lỗi nào.

Xét đến việc Gemini 3.0 Flash sắp ra mắt, chức năng tạo ảnh mới của Nano Banana có thể nhanh hơn và rẻ hơn. Chưa rõ liệu Lần 1.5 của OpenAI có phải là một "cuộc đấu tranh vô ích" hay không.

Chắc chắn rằng các cảnh báo khẩn cấp của OpenAI sẽ không dừng lại trong thời gian ngắn sắp tới.

Tham khảo: HYJ

https://x.com/OpenAI/status/2000990989629161873

https://openai.com/index/new-chatgpt-images-is-here/

Bài viết này được đăng tải từ tài khoản WeChat chính thức "New Zhiyuan" , tác giả: New Zhiyuan, và được xuất bản với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan