Cuộc chiến giữa OpenAI và Google giành giật các ứng dụng trí tuệ nhân tạo hàng đầu thế giới đã bước vào giai đoạn tấn công và phòng thủ mới.
Sáng sớm thứ Tư theo giờ Bắc Kinh, OpenAI đã công bố phiên bản mới của chức năng xử lý hình ảnh ChatGPT . Bên cạnh chất lượng tạo ảnh được cải thiện và tốc độ nhanh hơn , mô hình Hình ảnh mới này còn thể hiện một bước tiến đáng kể về độ chính xác trong chỉnh sửa ảnh. Nói tóm lại, OpenAI không chỉ đang phản công lại sê-ri mô hình Nano Banana nổi tiếng của Google, mà còn đang nhắm vào chính nền tảng của Photoshop.
OpenAI tuyên bố rằng tính năng "ChatGPT Image", dựa trên mô hình tạo ảnh hàng đầu mới nhất của họ, cho phép chỉnh sửa chính xác trong khi vẫn giữ được chi tiết , giúp tăng khả năng mang lại kết quả mong muốn. Quá trình chỉnh sửa chính xác mà vẫn giữ được chi tiết này nhanh hơn đến bốn lần .
Dĩ nhiên, hiệu quả của các mô hình tạo ảnh cần được minh họa bằng hình ảnh.
Theo OpenAI, cải tiến quan trọng nhất trong nâng cấp lần là mô hình mới vượt trội trong nhiều loại chỉnh sửa chính xác, bao gồm thêm, xóa, hợp nhất, pha trộn và chuyển vị, đồng thời vẫn giữ được các đặc điểm ban đầu của hình ảnh để đạt được hiệu ứng chỉnh sửa mong muốn .
Ví dụ, đây là bản demo về ảnh chụp đường phố Los Angeles cuối những năm 1990 được tạo ra bởi mô hình hình ảnh mới của ChatGPT.
→Đổi màu áo của nhân vật thành màu đỏ , mũ thành màu vàng , giới hạn tốc độ thành 15 và xe tải thành xe cứu hỏa ;
→ Thêm một nhóm người đứng xem ở bên trái, một con đại bàng đậu trên vỉa hè ở bên phải và một con tàu vũ trụ bay phía trên ở phía xa;
→ Một chiếc áo phông có in hình này phủ kín toàn bộ bề mặt đang được phơi trên dây phơi quần áo;
→Hãy mặc chiếc áo phông đó cho người chơi ván trượt .
Là một ứng dụng quan trọng của hình ảnh do AI tạo ra, ChatGPT Images cũng đã đạt được tiến bộ trong việc sáng tạo biến đổi các hình ảnh hiện có. Ví dụ, nó có thể biến đổi một bức ảnh cá nhân của CEO công ty, Altman, thành hình ảnh một huấn luyện viên thể dục nhịp điệu người Mỹ từ những năm 1980, hoặc ghép khuôn mặt của ông vào bức tranh nổi tiếng thế giới "Cô gái đeo khuyên tai ngọc trai".
Ngoài ra, ChatGPT cũng thách thức thế mạnh truyền thống của Google - tạo ra các sơ đồ giàu văn bản. OpenAI cho biết mô hình này tiến thêm một bước trong việc hiển thị văn bản, có khả năng xử lý văn bản dày đặc và nhỏ hơn .
Cần lưu ý rằng mặc dù ChatGPT có thể tạo ra các phông chữ tiếng Anh chân thực đến mức không thể phân biệt được với phông chữ thật, chính thức cũng thừa nhận rằng mô hình mới này vẫn còn những hạn chế trong việc tạo ra các phông chữ tiếng Trung, tiếng Ả Rập và tiếng Do Thái .
Do đó, ít nhất là về khả năng tạo ảnh văn bản tiếng Trung, Nano Banana vẫn hoàn toàn vượt trội so với ChatGPT .
Điều đáng chú ý là mô hình tạo ảnh mới mạnh mẽ hơn và rẻ hơn. So với GPT Image 1, phiên nâng cấp GPT Image 1.5 giảm 20% chi phí đầu vào và đầu ra ảnh.
Bài viết này được đăng tải từ tài khoản WeChat chính thức "Nhật báo Đổi mới Khoa học và Công nghệ" , tác giả: Shi Zhengcheng, và được xuất bản với sự cho phép của 36Kr.





