OpenAI mở hoàn toàn khả năng tạo hình ảnh của GPT-4o và lần này người dùng miễn phí là những người đầu tiên được trải nghiệm!
Có sẵn ngay hôm nay trên ChatGPT và Sora cho tất cả người dùng Plus, Pro, Team và Free.
Chỉ sau một đêm, nhiều kết quả xét nghiệm đã hiện lên trên màn hình. Điều tuyệt vời nhất là khả năng xử lý văn bản .
Ví dụ, 4o có thể khôi phục nội dung văn bản 100% và chỉ định vị trí văn bản.
Người đàn ông đang giơ chữ "một vài" bằng tay phải và chữ "từ" bằng tay trái
Nó cũng có thể tạo ra văn bản chính xác trong khi thay đổi chuyển động của nhân vật, giống như một bộ phim truyền hình.
So sánh kỹ hai bức ảnh, hình ảnh phản chiếu của người đàn ông trên bảng trắng ở bức ảnh thứ nhất cũng tương ứng với bức ảnh thứ hai.
Đêm qua, OpenAI bất ngờ thông báo sẽ tổ chức một buổi phát sóng trực tiếp nhỏ để ra mắt và lần này Ultraman đã xuất hiện (câu chuyện trước: anh ấy đã vắng mặt trong buổi ra mắt GPT-4.5 vì phải chăm sóc con cái).
Chương trình phát sóng trực tiếp trình diễn nhiều cách chơi khác nhau, chẳng hạn như tạo ra meme, hiển thị văn bản, tạo tương tác nhiều vòng và theo lệnh.
Chỉ cần chụp một bức ảnh tự sướng tại chỗ và sau đó chuyển ngay sang phong cách anime.
Nhân tiện, chính thức cũng tạo ra một bức ảnh meme và yêu cầu mọi người thêm "feel the agi" vào bức ảnh. (Có, nó cũng biết cách thay đổi chữ thường thành chữ hoa phù hợp hơn khi tạo)
Bây giờ, hãy mở ChatGPT và thử những khả năng này.
Tốc độ tạo ra thực tế rất nhanh (khoảng một lần trong mười giây), nhưng người dùng thông thường chỉ có lần cơ hội trải nghiệm mỗi ngày.
Dự kiến API sẽ được triển khai dần dần trong những tuần tới.
Làn sóng này tập trung vào một cái đẹp và thực tế
Cuối cùng chúng ta cũng đang tiến tới mô hình đa phương thức thực sự tích hợp này.
Theo giới thiệu chính thức, 4o, với tư cách là một mô hình đa phương thức, cuối cùng đã hoàn thành một phần quan trọng của câu đố - tạo hình ảnh.
Và trọng tâm chính là cả vẻ đẹp và tính thực tế .
Không cần phải nói thêm nữa, chúng ta hãy cùng xem xét hiệu suất cụ thể của khả năng nâng cấp này.
Nâng cấp lớn về khả năng
Đầu tiên, OpenAI cho biết 4o hiện có thể kết hợp chính xác các ký hiệu và hình ảnh.
Ví dụ, chỉ cần nhập một đoạn văn bản và tạo một menu tạo ra đẹp mắt:
Nó cũng hỗ trợ việc điều chỉnh dần dần nội dung và phong cách hình ảnh trong nhiều vòng hội thoại.
Tương tự như sau, hãy cung cấp một bức ảnh gốc về con mèo, sau đó từng bước tạo nhân vật trò chơi:
Ngoài ra, chúng tôi còn rất chú trọng đến các chi tiết. Chính thức cho biết 4o có thể xử lý tới 10-20 vật thể khác nhau , trong khi các mẫu khác thường gặp khó khăn khi xử lý 5-8 vật thể.
Ngoài những ưu điểm trên, 4o còn có khả năng tạo ra những hình ảnh chân thực .
Thậm chí còn có phiên bản đời thực của "copycat" (doge):
Cư dân mạng đã thử nghiệm ing
Sau khi thấy hiệu ứng công khai chính thức , cư dân mạng cũng nhanh chóng dấy lên làn sóng thử nghiệm thực tế~
Bức ảnh meme kinh điển được áp dụng lần đầu tiên và bức ảnh thực sự không hề lạc lõng hhh.
Ngay cả việc sao chép cùng một kiểu chữ cũng không thành vấn đề:
Một điều nữa
Nói về điều đó, hai ngày qua thực sự quá sôi động khi DeepSeek, OpenAI và Google gần như cạnh tranh nhau trên cùng một sân khấu.
Đáng chú ý là vào lúc 11 giờ đêm qua (giờ Bắc Kinh), OpenAI bất ngờ thông báo sẽ có một bản phát hành nhỏ và DeepSeek vừa mới công bố báo cáo kỹ thuật chính thức của DeepSeek-v3-0324.
Tôi tự hỏi liệu đây có phải là bản phát hành mới do DS ép buộc không? (chó)
Liên kết tham khảo
[1] https://openai.com/index/introducing-4o-image-generation/
[2] https://x.com/chatgpt21/status/1904683763914674208
Bài viết này trích từ tài khoản công khai WeChat "Quantum位" , tác giả là Yishui và được 36氪 cho phép xuất bản.