OpenAI, công ty đi đầu về AI, hôm nay đã tự làm mới mình một lần nữa và gần đây đã phát hành phiên bản xem trước của phiên bản thứ ba của công cụ tạo hình ảnh DALL-E. Không chỉ vậy, DALL-E 3 tích hợp với ChatGPT, cho phép người dùng tạo lời nhắc bằng ChatGPT và bao gồm nhiều tùy chọn bảo mật hơn.
Vì lý do này, Giám đốc điều hành OpenAI Sam Altman cũng đích thân tuyên bố về sản phẩm này: “Theo quan điểm của tôi, DALL-E 3 khá tuyệt vời”.
Qua một đêm, một số nhà thiết kế vui mừng và một số buồn bã.
01 Bức tranh AI Sự lật đổ, DALL-E 3 đã có mặt!
Giống như người tiền nhiệm của nó, DALLE-3 là một công cụ hình ảnh tạo văn bản cho phép hệ thống tạo ra những hình ảnh mới lạ thông qua lời nhắc bằng ngôn ngữ tự nhiên.
“DALL-E 3 hiểu được nhiều sắc thái và chi tiết hơn đáng kể so với các hệ thống trước đây của chúng tôi, cho phép bạn dễ dàng chuyển đổi ý tưởng thành hình ảnh rất chính xác”, OpenAI viết trên trang web chính thức của mình khi giới thiệu DALL-E 3.
Trong ví dụ chính thức, OpenAI đã chia sẻ các tác động khác nhau của việc sử dụng cùng một từ nhắc nhở, DALL-E 3 và DALL-E 2:
Sau khi đọc, nhiều cư dân mạng đã chế giễu rằng DALL-E 2 là trừu tượng, trong khi DALL-E 3 lại mang tính ấn tượng, dựa trên thực tế nhiều hơn và có thể cải thiện các chi tiết hiệu quả hơn, khiến hình ảnh được tạo ra trở nên chân thực và hấp dẫn hơn. .
Nếu đây là cải tiến đầu tiên của DALL-E 3, thì điểm thứ hai là DALL-E 3 mới nhất có khả năng tổng hợp hình ảnh tốt hơn nhiều so với bất kỳ mẫu nào hiện có khác và có thể hiểu Ngữ cảnh tốt hơn, tiền đề là không có người dùng cần tìm hiểu cụ thể về dự án Nhắc.
Trong các ví dụ được phát hành chính thức , người dùng chỉ cần tưởng tượng và đưa ra một số từ đơn giản như trăng tròn, người đi bộ tận hưởng cuộc sống về đêm, người phụ nữ trẻ, mái tóc đỏ, ông già gắt gỏng mặc cả, người cao lớn và giàu kinh nghiệm...
Bạn có thể có được một bức ảnh như sau thông qua DALL-E 3 mà không có bất kỳ hạn chế nào về ngưỡng từ nhắc nhở:
Vậy làm thế nào nó đạt được?
Như đã đề cập ở đầu bài viết, DALL-E 3 được "xây dựng nguyên bản" trên ChatGPT và sẽ tung ra dưới dạng tính năng tích hợp của ChatGPT Plus, cho phép cải thiện khả năng đàm thoại trên hình ảnh với trợ lý AI làm đối tác động não.
Điều đó cũng có nghĩa là ChatGPT sẽ có thể tạo hình ảnh dựa trên bối cảnh của cuộc trò chuyện hiện tại, điều này có thể dẫn đến các tính năng mới.
Ví dụ: khi mở cửa sổ hộp thoại ChatGPT,
Câu hỏi: "Con trai năm tuổi của tôi cứ nói mãi về 'Siêu nhím hướng dương'. Nó trông như thế nào?"
ChatGPT cung cấp cho bạn câu trả lời khi bạn nói:
Câu hỏi: "Con gái tôi nói nó tên là Larry. Bạn có thể cho tôi xem cái gì giống như vậy hơn được không?"
Trò chuyệnGPT:
Q: Cô ấy sẽ thích những thứ này! Bạn có thể chỉ cho tôi nhà của Larry được không?
Màn hình ChatGPT:
Q: Bạn có thể cho tôi biết Larry rất "thân thiện" không?
Trò chuyệnGPT:
Về vấn đề này, mặc dù sản phẩm cạnh tranh Midjourney của DALL-E 3 có thể hiển thị rất tốt các chi tiết thực tế nhưng nó vẫn cần phải liên tục sửa đổi và tối ưu hóa các từ gợi ý để có được hình ảnh như ý muốn.
Đối với người dùng OpenAI, ChatGPT giúp các nhà thiết kế chắt lọc ý tưởng và làm rõ ý tưởng thiết kế, trong khi DALL-3 giúp các nhà thiết kế rảnh tay, sự kết hợp của cả hai cũng sẽ mang lại tiềm năng rất lớn.
02 OpenAI ngăn chặn nhiều rủi ro tiềm ẩn
Tuy nhiên, cũng cần lưu ý rằng kể từ khi DALL-E ra mắt vào tháng 1 năm 2021 và OpenAI tung ra DALL-E 2 vào tháng 4 năm 2022, DALL-E 2 chủ yếu sử dụng công nghệ mô hình khuếch tán tiềm ẩn (ldm), yêu cầu phân tích dữ liệu. đào tạo và thông tin kịp thời, đồng thời kết hợp khả năng nhận thức của GAN (Mạng đối thủ sáng tạo), khả năng lưu giữ chi tiết của mô hình khuếch tán và khả năng ngữ nghĩa của Transformer để tạo ra một bức chân dung tốt hơn.
Ngoài ra còn có các nhà phát triển sử dụng công nghệ này trong ngành, chẳng hạn như Stable Diffusion.
Tuy nhiên, phương pháp này cho phép DALL-E tìm hiểu các khái niệm hình ảnh bằng cách lấy lượng lớn bộ dữ liệu tác phẩm nghệ thuật do con người tạo ra trong quá trình đào tạo, điều này đương nhiên dẫn đến sê-ri tranh chấp về bản quyền và đạo đức. để phản đối các tác phẩm nghệ thuật do AI tạo ra, chỉ trích những tác phẩm nghệ thuật AI này là sao chép một cách vô đạo đức phong cách sáng tạo của họ, v.v.
Để giải quyết những tranh chấp này, OpenAI tuyên bố trên blog chính thức rằng thiết kế của DALL-E 3 đã từ chối yêu cầu sử dụng hình ảnh theo phong cách nghệ sĩ sống. OpenAI cũng cung cấp một biểu mẫu (https://share.hsforms.com/1_OuT5tfFSpic89PqN6r1CQ4sk30) nơi người sáng tạo có thể từ chối sử dụng hình ảnh của họ để đào tạo các mô hình trong tương lai.
Ngoài ra, cách đây không lâu, OpenAI đã đưa ra thông báo triển khai đợt tuyển dụng thành viên mạng lưới “đội đỏ” toàn cầu, nhằm giới thiệu các lực lượng bên ngoài để phát hiện trước những sai sót và rủi ro của hệ thống AI.
Về quá trình phát triển DALL-E 3, OpenAI cho biết họ đã làm việc với các thành viên của “đội đỏ” để thiết lập hệ thống DALL-E 3 từ chối các yêu cầu tạo hình ảnh có tên của các nhân vật của công chúng cũng như triển khai từ khóa và hình ảnh. bộ lọc phát hiện, hạn chế khả năng người dùng tạo nội dung bạo lực, tình dục hoặc thù địch để xác định và giảm thiểu rủi ro tiềm ẩn, tăng mức độ bảo mật trong các khu vực rủi ro.
Ngoài ra, OpenAI cũng tiết lộ rằng họ đang thử nghiệm công cụ "phân loại xuất xứ" để giúp xác định xem hình ảnh có được tạo bởi DALL-E 3 hay không. Tuy nhiên, nhiều người dùng đã sử dụng các công cụ phát hiện AI tin rằng việc phát hiện hình ảnh AI thực sự là gần như không thể.
03 DALL-E 3 vs Giữa cuộc hành trình
Trên thực tế, do thiếu các chính sách quản lý, luật pháp, quy định, đạo đức và các tiêu chuẩn khác liên quan đến các công cụ và nội dung AIGC nên việc triển khai các công cụ khác nhau đương nhiên có cả ưu điểm và nhược điểm.
Tuy nhiên, từ góc độ kỹ thuật, liệu DALL-E 3 có thể đại diện cho một bước nhảy vọt khác trong các công cụ AIGC không? Có một người dùng tên là ETH, người đã sử dụng cùng một từ nhắc nhở như DALL-E 3 trên trang web chính thức của OpenAI và sử dụng Midjourney để tạo một phiên bản. Chúng ta cũng có thể cảm nhận được sự cạnh tranh giữa hai người bằng trực giác:
"Hình minh họa Bơ ngồi trên ghế của nhà trị liệu nói rằng 'Tôi cảm thấy bên trong thật trống rỗng' với một cái lỗ cỡ cái hố ở giữa. Nhà trị liệu là một cái thìa và đang viết nguệch ngoạc."
"Hình minh họa mô tả một trái tim con người làm bằng thủy tinh mờ, đứng trên bệ giữa những cơn sóng giông bão. Những tia nắng xuyên qua những đám mây, chiếu sáng trái tim và để lộ vũ trụ nhỏ bé bên trong. Được khắc trên đường chân trời Có một dòng ký tự bắt mắt 'Tìm vũ trụ trong trái tim bạn'."
"Phòng khách ấm cúng có ghế sofa hình quả chuối màu vàng rực rỡ, những đường cong của nó đỡ một chồng đệm nhiều màu sắc. Một tấm thảm có hoa văn trên sàn gỗ tạo thêm nét quyến rũ theo phong cách chiết trung, và một chậu cây nằm ở góc, vươn ra phía ngoài. cửa sổ. Mặt trời chiếu qua cửa sổ."
"Một bức tranh sơn dầu chi tiết vẽ một vị thuyền trưởng già đang lái con tàu của mình vượt qua cơn bão. Nước mặn tạt vào khuôn mặt phong trần của ông, đôi mắt tràn đầy quyết tâm. Những đám mây cuộn xoáy nhìn lên, và mối đe dọa từ những đợt sóng vỗ sắp bị nhấn chìm..."
"Một bức tranh minh họa theo phong cách phác họa bằng mực về một chú nhím nhỏ đang cầm một miếng dưa hấu bằng bàn chân nhỏ của nó và nhắm mắt vui vẻ cắn một miếng."
"Một hình minh họa thực vật cũ, được vẽ bằng những đường nét mảnh và một chút màu nước kỳ quái, mô tả một bông huệ kỳ lạ lai với một chiếc bẫy ruồi Venus, những cánh hoa của nó sẵn sàng bắt bất kỳ loài côn trùng không nghi ngờ nào."
"Một khung cảnh rộng lớn bao gồm nhiều loại thịt khác nhau mở ra trước mắt người xem. Những núi thịt bò nướng mềm và ngon ngọt, những cây dùi trống, dòng sông thịt xông khói và những tảng thịt prosciutto tạo nên một khung cảnh siêu thực và lạ miệng. Bầu trời tô điểm cho nước Ý Pepperoni Sun và Đám mây Salami.”
"Hình ảnh chiếc ghế hình cầu lấy cảm hứng từ vải thiều với bề ngoài màu trắng gập ghềnh và nội thất sang trọng trên nền giấy dán tường nhiệt đới."
"Một bức tranh sơn dầu biểu cảm về một cầu thủ bóng rổ đang nhảy, được miêu tả như một vụ nổ của tinh vân."
"Ảnh cận cảnh một con ốc mượn hồn ngồi trên cát ướt, có bọt biển gần đó, chi tiết vỏ và kết cấu của cát được nâng cao."
"Hoạt hình 2D của một ban nhạc dân gian gồm những chiếc lá mùa thu được nhân cách hóa, mỗi chiếc chơi nhạc bluegrass truyền thống, trong khung cảnh khu rừng mộc mạc được thắp sáng bởi ánh sáng dịu nhẹ của trăng tròn."
Bạn nghĩ công cụ nào trong hai công cụ này tốt hơn?
Cuối cùng, DALL-E 3 hiện chưa mở cửa cho công chúng. OpenAI tuyên bố rằng "DALL-E hiện đang trong giai đoạn xem trước và sẽ có sẵn cho ChatGPT Plus và khách hàng doanh nghiệp vào đầu tháng 10."
Bài viết này đến từ tài khoản công khai WeChat "CSDN" (ID: CSDNnews) và được xuất bản bởi 36Kr với sự cho phép.