Ra mắt mô hình ảnh thô Sora nâng cao: Không chỉ có thể sử dụng trực tiếp trong ChatGPT mà còn giúp loại bỏ công việc của những người sáng tạo meme

Bài viết này được dịch máy
Xem bản gốc
Chính thức dẫn đầu trong việc vẽ hình ảnh meme.

Sau khi DeepSeek phát hành bản cập nhật phiên bản V3 model 0324 chỉ 24 giờ trước, OpenAI dường như thực sự "không muốn chịu thua kém" và đã công bố phát hành sản phẩm mới vào sáng sớm ngày 26 tháng 3 theo giờ Bắc Kinh.

Mặc dù có một số tin đồn cho rằng GPT-5 có thể được phát hành lần này trước khi chính thức ra mắt, nhưng dựa trên nhịp độ phát hành sản phẩm trước đây của OpenAI, lần sẽ không phải là bản cập nhật lớn. Tuy nhiên, phiên bản mới của Sora được tích hợp vào ChatGPT được phát hành trong buổi phát sóng lần này vẫn mang đến cho mọi người một "hiệu ứng chương trình" bất ngờ.

Hiện tại, Sora tích hợp vào ChatGPT tạm thời chỉ giới hạn ở khả năng tạo hình ảnh so với phiên bản ứng dụng độc lập, nhưng theo giới thiệu của OpenAI trong buổi phát sóng trực tiếp, mô hình này đã có bước tiến vượt bậc về chất so với mô hình trước đó.

Có thông tin cho biết đội ngũ phát triển đã sử dụng khả năng "đa phương thức" của GPT-4o (hoặc một mô hình có thể tạo ra bất kỳ loại dữ liệu nào như văn bản, hình ảnh, âm thanh và video) làm cơ sở để phát triển phiên bản Sora này. Do đó, người dùng có thể trực tiếp nêu nhu cầu của mình, thậm chí tải lên hoặc chụp ảnh để sử dụng làm lời nhắc.

Ví dụ, trong buổi trình diễn trực tiếp, họ đã chụp ảnh tự sướng của ba người, bao gồm Sam Altman, bằng điện thoại di động của họ và yêu cầu Sora tạo ra một "phiên bản theo phong cách anime".

Không chỉ có thế. Cả ba người họ thậm chí còn chứng minh ngay tại chỗ cách Sora có thể thêm dòng chữ “Feel The AGI” vào một bức ảnh. Phiên bản mới đầu tiên của biểu tượng cảm xúc Sora đã được vẽ ngay tại chỗ.

Gói biểu tượng cảm xúc được tạo tại chỗ này không chỉ có văn bản chính xác và rõ ràng mà còn hiểu chính xác các yếu tố cần thiết của các meme phổ biến hiện nay, bao gồm cả văn bản in đậm. Nó có thể được sử dụng trực tiếp như một meme và gửi đến nhiều nhóm khác nhau.

Vì OpenAI chính thức dẫn đầu hoạt động này, nhiều người dùng trong phần bình luận cũng lấy cảm hứng và cố gắng đưa những lời nhắc tương tự cho Grok, sử dụng cùng những lời nhắc và hình ảnh tương tự để tạo nội dung theo cùng một phong cách. Tuy nhiên, hiệu ứng này rõ ràng tệ hơn phiên bản mới của Sora và mang lại hiệu ứng hài hước hơn.

Ngoài những hình ảnh meme hàng đầu, OpenAI còn chứng minh được những cải tiến trong việc hiển thị văn bản trong phiên bản mới của Sora, có thể làm tăng đáng kể tỷ lệ thành công trong việc tạo ra văn bản mạch lạc mà không có lỗi chính tả trên hình ảnh.

Trong một kịch bản trình diễn khác, đội ngũ OpenAI đã yêu cầu Sora tạo ra một tấm thiệp truyện tranh để hiểu về thuyết tương đối.

Không giống như các mô hình ảnh thô trước đây, trong đó phần tạo văn bản thường hỗn loạn hoặc thậm chí là "nhân vật do AI tạo ra", phiên bản mới của quá trình tạo hình ảnh gốc của Sora và văn bản được tạo ra không còn bất kỳ sự nhầm lẫn rõ ràng nào nữa , và thậm chí còn tạo ra tiếng Nhật rất tự nhiên và trôi chảy trong truyện tranh, điều này bất ngờ khiến nhiều người dùng Nhật Bản trong cộng đồng Nhật Bản "phát điên".

Việc hiển thị văn bản một cách chính xác từng là một thách thức lớn đối với các mô hình tạo hình ảnh trong quá khứ. Nếu một tiêu đề phụ hoặc thành phần văn bản có lỗi đánh máy hoặc lỗi, toàn bộ hình ảnh có thể không sử dụng được.

Ngoài ra, trong trường hợp này, OpenAI cũng chứng minh được sự tham chiếu chính xác đến "kiến thức hiện có trên thế giới" như thuyết tương đối.

"Nếu tôi vẽ một hình ảnh, tôi sẽ bị giới hạn bởi chính kỹ năng của mình... và tất cả kiến ​​thức về thế giới mà tôi đã tích lũy được", Jackie Shannon, giám đốc sản phẩm đa phương thức tại ChatGPT, giải thích về sự cần thiết của tính năng này trong một cuộc phỏng vấn với giới truyền thông.

“Mô hình này kết hợp kiến ​​thức thế giới trong đó, vì vậy khi bạn yêu cầu nó tạo ra hình ảnh về thí nghiệm lăng kính Newton, bạn không cần phải giải thích thí nghiệm lăng kính Newton là gì và bạn có thể có được hình ảnh chính xác."

Ngoài những cải tiến về khả năng mô hình được đề cập trong các buổi phát sóng trực tiếp ở trên, OpenAI cũng tuyên bố rằng phiên bản mới của Sora đã cải thiện đáng kể khả năng duy trì mối quan hệ chính xác giữa các thuộc tính và đối tượng. Ví dụ, một mô hình có khả năng liên kết kém có thể tạo ra một ngôi sao màu đỏ mà không có hình tam giác thay vì một ngôi sao màu xanh và một hình tam giác màu đỏ.

Theo OpenAI, hầu hết các mô hình hình ảnh hiện tại đều dễ mắc lỗi về mặt này, đặc biệt là khi được yêu cầu hiển thị nhiều mục (thường khoảng 5 đến 8 mục), thường gây nhầm lẫn về màu sắc và hình dạng. Phiên bản mới của chức năng tạo hình ảnh của Sora có thể liên kết chính xác các thuộc tính của 15 đến 20 đối tượng, đảm bảo rằng chúng sẽ không bị hiểu sai khi hiểu các nhu cầu phức tạp tương ứng của chúng, do đó cải thiện đáng kể tỷ lệ thành công.

Ngoài những cải tiến về trải nghiệm người dùng, còn có một chi tiết khác mà OpenAI đã xác nhận là phiên bản mới của Sora mất nhiều thời gian hơn để tạo hình ảnh so với trước đây, nhưng OpenAI cho rằng đây là một sự đánh đổi xứng đáng.

Shannon cho biết: “Mặc dù chúng tôi chắc chắn có thể cải thiện độ trễ… [chúng tôi cảm thấy] chất lượng, chức năng và kiến ​​thức về thế giới của những hình ảnh được tạo ra này thực sự bù đắp cho vài giây chờ đợi thêm mà người dùng phải chịu”.

Về vấn đề bảo mật trong lĩnh vực hình ảnh thô - từ năm ngoái đến năm nay, đã có lần hình ảnh khiếm nhã ngụy tạo mạo của người nổi tiếng, hình ảnh giả về các sự kiện điểm nóng và Google Gemini xóa hình mờ gốc khỏi ảnh. Đội ngũ OpenAI nhấn mạnh rằng phiên bản mới của Sora có thể xóa hình mờ trên ảnh, đồng thời ngăn chặn việc tạo ảnh ngụy tạo độ sâu từ chối tạo các yêu cầu nội dung liên quan. Đồng thời, tất cả hình ảnh được tạo ra sẽ chứa dữ liệu C2PA chuẩn để đánh dấu rằng hình ảnh đó được tạo ra bởi OpenAI.

Hiện tại, phiên bản mới của chức năng tạo mô hình hình ảnh Sora tích hợp trong ChatGPT đã được mở cho người dùng gói đăng ký Pro và Plus, và OpenAI hứa rằng phiên bản mới của Sora cũng sẽ được cung cấp dưới dạng phiên bản miễn phí và API trong tương lai gần.

Điều tôi muốn làm nhất bây giờ là để nó giúp tôi vẽ meme của riêng mình ngay lập tức.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Followin logo