OpenAI đang tích hợp khả năng tạo hình ảnh trực tiếp vào ChatGPT, cho phép người dùng tạo hình ảnh mà không cần rời khỏi giao diện trò chuyện.
Công ty đã thông báo tính năng này vào Thứ Ba như một phần trong nỗ lực rộng hơn để làm cho các công cụ AI hữu ích và dễ tiếp cận hơn trên các phương tiện truyền thông khác nhau, duy trì sự liên quan trong lĩnh vực nghệ thuật AI.
Tính năng này là sự phát triển của DALL·E 3, trình tạo hình ảnh của OpenAI, đã được ra mắt vào tháng 9 năm 2023 nhưng đã mất đi sự ưa thích trong số những người nhiệt tình về AI, những người ưa thích thế hệ mô hình tiếp theo, bao gồm Flux, MidJourney v6, SD 3.5, Recraft và Reve.
Trước bản phát hành này, OpenAI đã cung cấp hai mô hình khác nhau trên cùng một nền tảng, với GPT tạo văn bản và DALL·E 3 xử lý việc tạo hình ảnh.
Giờ đây, GPT-4o sẽ tự thực hiện mọi thứ, và DALL·E 3 sẽ biến mất.
"Việc tạo hình ảnh của GPT‑4o xuất sắc trong việc hiển thị chính xác văn bản, tuân theo các lời nhắc một cách chính xác và tận dụng cơ sở kiến thức và ngữ cảnh trò chuyện của 4o - bao gồm cả việc chuyển đổi các hình ảnh được tải lên hoặc sử dụng chúng làm nguồn cảm hứng hình ảnh," OpenAI tuyên bố trong một bài đăng trên blog chính thức.
Việc tích hợp DALL·E 3 tiếp tục thực hiện kế hoạch của công ty để làm cho GPT-4o trở thành một mô hình "omni", được đào tạo với dữ liệu đa phương thức và có khả năng xử lý tất cả các nhiệm vụ. Kết quả là một mô hình có năng lực, độ chính xác và trí thông minh vượt trội hơn các phiên bản tiền nhiệm.
"Chúng tôi biết chúng tôi đã khiến bạn phải chờ đợi, nhưng chúng tôi nghĩ rằng điều này thực sự xứng đáng, và chúng tôi nghĩ bạn sẽ yêu thích nó," Sam Altman, CEO của OpenAI, cho biết trong một video giới thiệu các khả năng mới của GPT-4o. "Đó là một bước tiến quá lớn đến nỗi cách tốt nhất để giải thích với bạn là chỉ cần cho bạn xem."
Trong video, công ty đã trình diễn các khả năng của hệ thống với một số ví dụ, bao gồm các trang manga giải thích lý thuyết tương đối - với đầu vào bằng tiếng Anh và tiếng Quan Thoại - thẻ giao dịch tùy chỉnh dựa trên ảnh cá nhân và thực tế, đồng xu kỷ niệm kết hợp nhiều hình ảnh với nền trong suốt, và một hình ảnh rất chính xác dựa trên một lời nhắc chi tiết và cực kỳ dài.
Mô hình này chậm trong việc tạo hình ảnh, nhưng có vẻ rất chính xác. Altman chỉ ra rằng việc nâng cấp chất lượng đáng kể là đáng giá thời gian chờ đợi lâu hơn.
"Hình ảnh chậm hơn so với mô hình tạo hình ảnh trước đây của chúng tôi, nhưng không thể tin được là tốt hơn. Chúng tôi nghĩ rằng việc chờ đợi là hoàn toàn xứng đáng," Altman nói trong buổi trình diễn. "Chúng tôi cũng sẽ có thể làm cho nó nhanh hơn theo thời gian."
Việc triển khai có vẻ đang diễn ra từng bước, và chúng tôi chưa thể tiếp cận mô hình mới tại thời điểm báo chí.
Người dùng có thể nhận biết hệ thống họ đang sử dụng dựa trên cách xuất hiện của hình ảnh: Ngoài khoảng cách chất lượng rõ rệt, hình ảnh DALL·E 3 xuất hiện hoàn chỉnh sau màn hình tải, trong khi mô hình GPT-4o mới hiển thị hình ảnh từng phần từ trên xuống dưới trong thời gian thực.
Công ty nhấn mạnh rằng công nghệ này vượt xa việc tạo ra những hình ảnh đẹp.
"Điều thực sự thú vị về bản phát hành này là các mô hình này giờ đây có thể trực quan hóa những gì chúng biết và thể hiện ra bằng cách hình ảnh," một nhà khoa học nghiên cứu tại OpenAI, được Sam Altman mời để nói về tính năng mới này, đã giải thích.
Khả năng này cho phép các ứng dụng giáo dục như sơ đồ khoa học chi tiết hoặc áp phích thông tin với văn bản được hiển thị chính xác và thậm chí chỉnh sửa hình ảnh với sự nhất quán về chủ thể.
OpenAI cũng đã triển khai các rào chắn để ngăn chặn việc tạo ra deepfake, nội dung bất hợp pháp và loại bỏ hình mờ.
Mặc dù các hình ảnh được tạo ra sẽ không có hình mờ hiển thị, nhưng chúng sẽ bao gồm siêu dữ liệu C2PA để nhận dạng chúng là do AI tạo. Công ty cũng đang phát triển các công cụ để theo dõi nguồn gốc hình ảnh.
Công ty dự định đưa tính năng này vào API của mình, cho phép các nhà phát triển tích hợp công nghệ này vào các ứng dụng của riêng họ. Điều Khoản Sử Dụng của OpenAI cũng nói rằng người dùng sẽ giữ quyền sở hữu các hình ảnh họ tạo ra, tuân theo các chính sách sử dụng của công ty.
Được chỉnh sửa bởi Sebastian Sinclair và Josh Quittner