Vào cuối năm 2025, OpenAI đã cập nhật khả năng tạo hình ảnh của mình một lần nữa, phát hành mô hình thế hệ tiếp theo, GPT Image 1.5, cho công chúng. Bản phát hành lần không đi kèm với chiến dịch quảng bá hình ảnh rầm rộ, cũng không cố gắng tạo ra một câu chuyện lớn về "Sự lật đổ ngành công nghiệp sáng tạo". Thay vào đó, OpenAI đã trực tiếp tích hợp khả năng này vào việc sử dụng ChatGPT hàng ngày, biến việc tạo hình ảnh trở thành một phần của luồng hội thoại.
Thoạt nhìn, đây vẫn chỉ là bản nâng cấp mô hình: tốc độ nhanh hơn, khả năng chỉnh sửa mạnh mẽ hơn và khả năng hiểu lệnh ổn định hơn. Tuy nhiên, nếu xét đến những thay đổi trong lĩnh vực xử lý hình ảnh bằng AI trong năm qua, chúng ta sẽ thấy rằng trọng tâm của GPT Image 1.5 không còn đơn thuần là "thể hiện khả năng tạo hình ảnh", mà là sự điều chỉnh tập trung vào phương pháp sử dụng và quy trình làm việc.
Xử lý hình ảnh bằng AI đang chuyển từ "khả năng vẽ nên những bức tranh đẹp" sang "khả năng thực sự được ứng dụng trong công việc", và bước tiến quan trọng này thường có ý nghĩa thực tiễn hơn cả chính bước đột phá công nghệ.
Hình ảnh GPT 1.5: OpenAI đã tái định hình "Vẽ bằng AI" như thế nào
Nguồn ảnh: Được tạo bởi GPT Image 1.5
Trước khi GPT Image 1.5 ra đời, việc tạo ảnh bằng AI đã trải qua nhiều lần cải tiến. Mô hình có thể tạo ra những hình ảnh chất lượng cao với phong cách ngày càng đa dạng, nhưng người dùng nhanh chóng nhận ra trong thực tế rằng việc tạo ra một hình ảnh tuyệt đẹp và việc tích hợp nó một cách liền mạch vào quy trình làm việc là hai việc hoàn toàn khác nhau.
Sự đổi mới của GPT Image 1.5 thể hiện đầu tiên ở việc tái cấu trúc hình thức sản phẩm. Nó không phải là một ứng dụng vẽ độc lập, mà được tích hợp độ sâu vào mô-đun chức năng hình ảnh của ChatGPT. Toàn bộ quá trình tạo, chỉnh sửa và xác nhận được hoàn thành trong cùng một hoàn cảnh hội thoại, loại bỏ nhu cầu người dùng phải chuyển đổi qua lại giữa nhiều công cụ và tiết kiệm chi phí chuyển đổi rườm rà.
Đằng sau thiết kế này là sự hiểu biết sâu sắc của OpenAI về các tình huống sáng tạo thực tế. Trên thực tế, hình ảnh không bao giờ là sản phẩm hoàn chỉnh chỉ trong một lần, mà cần một quá trình tinh chỉnh lặp đi lặp lại. Việc hiệu chỉnh màu sắc, điều chỉnh bố cục, tối ưu hóa chi tiết và bố cục văn bản đều có thể được sửa đổi liên tục thông qua nhiều vòng trao đổi. GPT Image 1.5 nhấn mạnh tính ổn định này của "các sửa đổi lặp đi lặp lại mà không làm đảo lộn cấu trúc ban đầu".
So với các mô hình trước đây, thế hệ tạo ảnh mới thể hiện hiệu suất ổn định hơn trong việc hiểu lệnh. Người dùng có thể mô tả rõ ràng hơn nhu cầu chỉnh sửa của mình, và mô hình không còn thường xuyên lệch khỏi logic hình ảnh ban đầu trong quá trình thực thi. Điều này đặc biệt quan trọng đối với các trường hợp yêu cầu duy trì tính nhất quán trong hình ảnh thương hiệu, miêu tả nhân vật hoặc hình minh họa hướng dẫn.
Đồng thời, hiệu quả được cải thiện trong việc tạo và chỉnh sửa hình ảnh giúp dễ dàng tích hợp hình ảnh AI vào nhịp điệu công việc hàng ngày. Khi việc tạo và chỉnh sửa không còn là nút chờ đợi rõ ràng, hình ảnh có thể trở thành một phần thường xuyên của quy trình, thay vì chỉ là một công cụ hỗ trợ thỉnh thoảng.
Điều đáng chú ý là GPT Image 1.5 không cố tình nhấn mạnh bất kỳ "phong cách đặc trưng" nào. Nó dường như cố ý kiềm chế sự thể hiện của mình, thay vào đó theo đuổi một đầu ra tương đối trung tính và dễ kiểm soát. Lựa chọn này có thể không phải là cách dễ nhất để tạo ra sự chú ý, nhưng nó gần gũi hơn với nhu cầu sử dụng thực tế.
Xét về khía cạnh này, GPT Image 1.5 không phải là một bước tiến vượt bậc về khả năng hiển thị hình ảnh, mà chỉ là một sự thay đổi trong logic sản phẩm.
Không chỉ đơn thuần là cạnh tranh: Những lựa chọn của ngành công nghiệp đằng sau GPT Image 1.5 và Nano Banana
Việc đặt GPT Image 1.5 vào bối cảnh cạnh tranh hiện tại của lĩnh vực xử lý hình ảnh bằng AI giúp định vị sản phẩm của nó rõ ràng hơn.
Trong năm qua, mô hình tạo ảnh Nano Banana của Google đã thu hút sự chú ý lượng lớn trên các phương tiện truyền thông công nghệ quốc tế và các nền tảng mạng xã hội. Những hình ảnh được tạo ra có tính độc đáo cao về hiệu ứng thị giác và phong cách thể hiện, với nhiều hình ảnh nhanh chóng lan truyền rộng rãi. Loại mô hình này đặc biệt hiệu quả trong việc tạo ra những hình ảnh "bắt mắt", lý tưởng cho việc trưng bày và chia sẻ.
Tuy nhiên, trong thực tế sử dụng, ưu điểm này đi kèm với những đánh đổi rõ ràng. Khả năng tạo ra bản sao một lần vượt trội không có nghĩa là nó phù hợp cho việc chỉnh sửa nhiều lần. Đối với nhiệm vụ yêu cầu nhiều vòng điều chỉnh, việc chỉnh sửa một phần thường đồng nghĩa với việc tạo lại bản sao, điều này không hề rẻ.
Đây không phải là lỗi của bất kỳ mô hình cụ thể nào, mà là kết quả của phương pháp được lựa chọn. Một phương pháp nhấn mạnh vào chính sự thể hiện trực quan, theo đuổi sự căng thẳng thẩm mỹ và hiệu quả truyền tải; phương pháp kia tập trung nhiều hơn vào nhân vật của hình ảnh trong quá trình sản xuất.
Nguồn ảnh: Được tạo bởi GPT Image 1.5
GPT Image 1.5 rõ ràng thuộc về loại thứ hai. Nó không cố gắng đạt được chất lượng hình ảnh đơn lẻ tối ưu, mà tập trung vào khả năng chỉnh sửa và tính nhất quán. Kết quả tạo ra có thể không hướng đến một phong cách mạnh mẽ, nhưng dễ dàng sửa đổi, tái sử dụng và mở rộng.
Sự khác biệt này đặc biệt rõ rệt trong việc sử dụng sản phẩm. Đối với nhu cầu hiển thị, các mẫu thiết kế có kiểu dáng mạnh mẽ vẫn hấp dẫn; tuy nhiên, trong môi trường doanh nghiệp, tổ chức nội dung hoặc giáo dục, hình ảnh thường cần được điều chỉnh liên tục để thích ứng với các kênh và giai đoạn khác nhau.
Từ góc nhìn này, GPT Image 1.5 và Nano Banana không chỉ đơn thuần là đối thủ cạnh tranh, mà còn đại diện cho hai hướng đi khác nhau trong việc tạo ra hình ảnh bằng trí tuệ nhân tạo: một hướng tập trung vào việc phổ biến và thể hiện, hướng còn lại tập trung vào quy trình và phân phối.
Khi công nghệ xử lý ảnh bằng trí tuệ nhân tạo dần hướng tới các ứng dụng quy mô lớn, tầm quan trọng của nó ngày càng được nhấn mạnh.
Từ ý tưởng đến lớp học: Tác động của hình ảnh AI khi bước vào giai đoạn bàn giao sản phẩm
Khi hình ảnh do AI tạo ra bắt đầu có khả năng được chỉnh sửa ổn định và xuất ra một cách nhất quán, tác động của chúng sẽ không còn giới hạn trong ngành công nghiệp sáng tạo nữa.
Trong môi trường thương mại, đội ngũ dựng thương hiệu và tiếp thị đã bắt đầu sử dụng hình ảnh do AI tạo ra để tạo bản nháp ban đầu và mở rộng các phiên bản. Các nhà thiết kế không còn cần phải tạo ra mọi tài liệu từ đầu, mà thay vào đó đảm nhận nhân vật lớn hơn trong việc giám sát thẩm mỹ và phê duyệt cuối cùng. Sự thay đổi này không có nghĩa là giá trị của thiết kế giảm, mà chỉ là sự thay đổi trọng tâm của công việc.
Một logic tương tự đang dần xuất hiện trong lĩnh vực giáo dục.
Nội dung giáo dục từ lâu đã phụ thuộc rất nhiều vào tài liệu trực quan. Cho dù đó là hình minh họa trong sách giáo khoa, sơ đồ trong tài liệu học tập hay hình ảnh bổ sung trong các khóa học trực tuyến, tất cả đều cần phải rõ ràng, chính xác và dễ hiểu. Không giống như sự sáng tạo trong thương mại, yêu cầu đối với hiệu ứng hình ảnh trong giáo dục không phải là "đẹp mắt", mà là "phù hợp".
Trong những năm gần đây, một số giáo viên và người tạo nội dung giáo dục đã bắt đầu thử nghiệm với các công cụ tạo hình ảnh bằng trí tuệ nhân tạo để tạo ra sơ đồ, tái hiện cảnh lịch sử hoặc bản đồ khái niệm khoa học. Các ứng dụng này không theo đuổi phong cách nghệ thuật phức tạp, mà tập trung vào độ chính xác và tính dễ hiểu của nội dung.
Trong quá trình này, khả năng chỉnh sửa trở nên đặc biệt quan trọng. Nội dung giảng dạy thường cần được điều chỉnh dựa trên phản hồi của học sinh, và hình ảnh cũng cần được sửa đổi cho phù hợp. So với hình ảnh được tạo ra một lần, các công cụ AI có thể được điều chỉnh nhiều lần dựa trên nội dung gốc sẽ được các nhà giáo dục chấp nhận dễ dàng hơn.
Việc GPT Image 1.5 tập trung vào khả năng chỉnh sửa ổn định giúp nó phần nào thích ứng với các tình huống giáo dục. Giáo viên có thể dần dần điều chỉnh nội dung hình ảnh theo nhu cầu giảng dạy, thay vì phải tạo mới hoàn toàn lần. Điều này giúp giảm bớt rào cản gia nhập tạo ra và rút ngắn chu kỳ chuẩn bị nội dung.
Tất nhiên, điều này không có nghĩa là hình ảnh do AI tạo ra sẽ thay thế giáo viên hoặc người tạo nội dung giáo dục. Ngược lại, hiệu quả sản xuất hình ảnh được nâng cao có thể cho phép dành nhiều năng lượng hơn cho thiết kế bài giảng và chính nội dung đó. AI sẽ đóng nhân vật là công cụ, chứ không phải nhân vật ra quyết định.
Nguồn ảnh: Được tạo bởi GPT Image 1.5
Từ kinh doanh đến giáo dục, GPT Image 1.5 thể hiện một xu hướng tương tự: hình ảnh AI đang chuyển từ "khả năng hiển thị" sang "nguồn lực sản xuất". Sự thay đổi này không gây tiếng vang lớn, nhưng nó đủ sâu sắc.
Điều này có nghĩa là hình ảnh do AI tạo ra không chỉ đơn thuần là tạo ra một bức ảnh đẹp mắt, mà còn bắt đầu tham gia vào các quy trình làm việc thực tế, đảm nhận trách nhiệm về khả năng tái sử dụng và chỉnh sửa.
Theo nghĩa này, GPT Image 1.5 không cố gắng tạo ra một cuộc cách mạng về hình ảnh, mà đúng hơn là đang trả lời một câu hỏi thực tế: khi hình ảnh AI thực sự được đưa vào sản xuất, chúng nên tồn tại như thế nào?
Bài viết này được đăng tải từ tài khoản WeChat công cộng "Duojing" (ID: DJEDUINNO) , tác giả: Lần, và được xuất bản với sự cho phép của 36Kr.





