Nhà lãnh đạo trí tuệ nhân tạo OpenAI hôm nay (26) đã ra mắt mô hình tạo hình ảnh tiên tiến nhất từ trước đến nay, được tích hợp trong GPT-4o, người dùng hiện có thể nhanh chóng tạo và chỉnh sửa hình ảnh trực tiếp trên ChatGPT mà không cần mở DALL-E.
Chính thức cho biết tính năng này sẽ được mở cho người dùng Pro (200 đô la mỗi tháng) từ hôm nay, và sẽ được mở rộng dần cho người dùng Plus, Team và miễn phí, đồng thời được đẩy đến nền tảng Sora và các nhà phát triển API. Người dùng doanh nghiệp và giáo dục cũng sắp được sử dụng.
Tạo hình ảnh GPT-4o mang lại độ chính xác và tính hữu ích cao hơn
Tính năng mới sử dụng mô hình GPT-4o, thay thế DALL-E 3 trước đây, có khả năng tạo và chỉnh sửa hình ảnh gốc, chính thức cho biết chất lượng hình ảnh chân thực đến mức khó phân biệt bằng mắt thường, chi tiết phong phú, thậm chí vượt qua các đối thủ cạnh tranh như Midjourney.
Khác với các mô hình lan truyền tạo toàn bộ hình ảnh một lần, GPT-4o sử dụng kỹ thuật tự hồi quy, tạo hình ảnh từng bước từ trái sang phải, từ trên xuống dưới tương tự như cách viết chữ. Người phụ trách nghiên cứu Gabriel Goh tiết lộ rằng công nghệ này đáng kể nâng cao khả năng kết xuất và liên kết văn bản, có thể tuân theo hướng dẫn tốt hơn, đồng thời xử lý chính xác các lệnh phức tạp với 10 đến 20 đối tượng, vượt xa giới hạn 5-8 đối tượng của các đối thủ cạnh tranh.
Ngoài ra, GPT-4o đã đạt được nhiều bước đột phá trong việc tạo hình ảnh:
- Kết xuất và tích hợp văn bản chính xác hơn: Các mô hình trước thường khó tạo văn bản rõ ràng và chính xác về vị trí, còn GPT-4o có thể tích hợp văn bản với hình ảnh một cách chính xác, kết hợp với kiến thức phong phú của GPT, phù hợp hơn để tạo nhanh biểu đồ thông tin, PTT hoặc áp phích.
- Tạo hình ảnh nhiều lần: Chỉ với một câu là có thể chỉnh sửa ảnh, linh hoạt điều chỉnh tỷ lệ chiều rộng và chiều cao, sử dụng mã màu hex để chỉ định màu chính xác hoặc yêu cầu loại bỏ nền. Người dùng còn có thể tương tác để tinh chỉnh hình ảnh một cách chuyên nghiệp, duy trì tính nhất quán giữa các lần tạo.
- Đầu vào và đầu ra đa phương thức(văn bản, hình ảnh): GPT‑4o có thể phân tích và học từ hình ảnh do người dùng tải lên, tích hợp liền mạch các chi tiết của nó vào bối cảnh để hướng dẫn việc tạo hình ảnh.
- Chuyển đổi phong cách đa dạng: Từ bản phác thảo vẽ tay đến phong cách hiện thực độ phân giải cao, mô hình có thể linh hoạt tạo và chuyển đổi để đáp ứng các nhu cầu khác nhau.
Mặc dù tốc độ tạo hơi chậm hơn DALL-E 3, OpenAI nhấn mạnh rằng việc nâng cao chất lượng là đáng giá để chờ đợi. Các ví dụ được trình bày bao gồm truyện tranh nhiều khung (tính nhất quán nhân vật rất cao), LOGO, áp phích thông tin và thiết kế thực đơn nhà hàng, thể hiện tiềm năng ứng dụng thương mại của nó.
Giám đốc điều hành OpenAI Sam Altman trong buổi phát trực tiếp đã hào hứng nói: "Chất lượng những hình ảnh này thật kinh ngạc, tôi gần như không tin được chúng được tạo ra bởi AI! Đây là đỉnh cao mới của sự sáng tạo tự do."