Vào sáng sớm, Google đã công bố một mô hình mới và OpenAI đã nhanh chóng phát hành GPT-4o, có thể chỉnh sửa ảnh bằng Photoshop chỉ bằng cách cử động miệng. Cư dân mạng: Cảm ơn DeepSeek một lần nữa

03-26

Bài viết này được dịch máy

Xem bản gốc

Vào sáng sớm ngày 26 tháng 3 theo giờ Bắc Kinh, Google đã phát hành Gemini Pro 2.5, được biết đến là mô hình suy luận mạnh mẽ nhất. Trước Google, OpenAI đã đi đầu trong việc tổ chức phát sóng trực tiếp và phát hành mô hình công nghệ tạo hình ảnh GPT-4o. Điều thú vị là trong sáu tháng qua, hầu như lần bản phát hành của Google đều “xung đột” với chương trình phát sóng trực tiếp của OpenAI.

OpenAI phát hành GPT-4o, khả năng tạo hình ảnh đa phương thức gốc

“Bắt đầu từ hôm nay, OpenAI sẽ tích hợp các khả năng tạo hình ảnh mới trực tiếp vào ChatGPT — tính năng này được gọi là ‘Hình ảnh trong ChatGPT’. Người dùng hiện có thể tạo hình ảnh bên trong ChatGPT bằng GPT-4o”, OpenAI cho biết.

Phiên bản đầu tiên này chỉ tập trung vào việc tạo hình ảnh và sẽ có trong các gói đăng ký ChatGPT Plus, Pro, Team và Free.

Đáng chú ý, vốn từ vựng đánh dấu tạo hình ảnh GPT-4o (thực chất là số lượng số nguyên duy nhất được sử dụng để biểu diễn văn bản) đã tăng từ ~100.000 trong GPT-4 và GPT-3.5 lên ~200.000. Tiếng Gujarati sử dụng ít đánh dấu hơn 4,4 lần, tiếng Nhật sử dụng ít hơn 1,4 lần và tiếng Tây Ban Nha sử dụng ít hơn 1,1 lần. Trước đây, các ngôn ngữ khác ngoài tiếng Anh trả giá một mức phạt đáng kể về lượng văn bản có thể đưa vào lời nhắc.

Điều đáng chú ý nữa là giá cả. OpenAI tuyên bố giảm giá 50% so với GPT-4 Turbo. Để có sự so sánh trực quan hơn, GPT-4o có giá cao gấp chính xác 10 lần so với GPT-3.5; 4o là 5 đô la/triệu token đầu vào và 15 đô la/triệu token đầu ra. 3,5 là 0,50 đô la/triệu token đầu vào và 1,50 đô la/triệu token đầu ra.

Việc giảm giá đặc biệt đáng chú ý vì OpenAI đã hứa sẽ cung cấp mô hình cho cả người dùng ChatGPT miễn phí — lần họ cung cấp mô hình "tốt nhất" của mình trực tiếp cho những khách hàng không trả phí.

"Mô hình này là một cải tiến lớn so với các mô hình trước đây", Gabriel Goh, người đứng đầu nghiên cứu của OpenAI, nói với CNBC, đồng thời cho biết đội ngũ đã sử dụng GPT-4o "đa phương thức" - một mô hình có thể tạo ra bất kỳ loại dữ liệu, chẳng hạn như văn bản, hình ảnh, âm thanh và video - làm cơ sở cho tính năng này.

OpenAI đã tuyên bố trong thông báo rằng chức năng tạo hình ảnh của GPT-4o có các tính năng sau:

Hiển thị chính xác văn bản trong hình ảnh, giúp tạo ra logo, thực đơn, lời mời, đồ họa thông tin, v.v.
Thực hiện chính xác các hướng dẫn phức tạp, ngay cả trong các sáng tác có độ chi tiết cao;
Mở rộng hình ảnh và văn bản trước đó để đảm bảo tính nhất quán về mặt hình ảnh trong nhiều tương tác;
Hỗ trợ nhiều phong cách nghệ thuật khác nhau, từ chủ nghĩa hiện thực đến minh họa và nhiều hơn nữa.

Trước tiên chúng ta hãy cảm nhận hiệu ứng tạo ra hình ảnh.

OpenAI đã phát hành bức ảnh một người phụ nữ đang viết trên bảng trắng quay lưng về phía máy ảnh trong buổi trình diễn demo chính thức.

Bức ảnh trông giống như một bức ảnh đời thường, nhưng thực chất đây là bức ảnh AI được tạo ra bởi GPT-4o. Các từ gợi ý được OpenAI đưa ra như sau:

“Một bức ảnh rộng được chụp bằng điện thoại di động về một tấm bảng trắng bằng kính trong một căn phòng nhìn ra Cầu Bay. Một người phụ nữ đang viết trong bức ảnh, mặc một chiếc áo phông có logo OpenAI nổi bật. Chữ viết tay tự nhiên và hơi lộn xộn, và hình ảnh của nhiếp ảnh gia được chiếu trên bảng trắng.”

Ở bức ảnh thứ hai, hướng đi của các nhân vật đã được thay đổi. Từ góc chụp ảnh tự sướng của nhiếp ảnh gia, người phụ nữ trong ảnh đã quay lại và cho anh ấy một cái vỗ tay. Hình ảnh được tạo ra vẫn không giống như được tạo ra bởi AI.

Nó cũng có thể tạo ra các dải truyện tranh bốn khung hình và đảm bảo để lại một khoảng trắng giữa đường viền và mép của bức tranh. Các từ gợi ý như sau:

"Một con ốc sên nhỏ đang ngồi trên quầy trưng bày xe hơi sang trọng, và người bán hàng phải cúi xuống để nhìn thấy nó. Trong một cảnh quay cụ thể, con ốc sên có vẻ mặt nghiêm túc và nói, 'Tôi muốn chiếc xe thể thao nhanh nhất của anh... với chữ 'S' viết hoa được sơn trên cửa, mui xe và mui xe.' '
Người bán hàng gãi đầu: "Ừm...tất nhiên là không vấn đề gì. Nhưng tại sao lại là "S"? '
Cảnh quay chuyển sang cảnh một chiếc xe hơi màu đỏ phóng vút qua trên đường cao tốc với chữ "S" lớn được viết khắp thân xe. Mọi người bên lề đường chỉ tay, cười và nói: 'Ồ! NHÌN CHIẾC XE S ĐÓ ĐI!'"

Tạo đồ họa thông tin giải thích chi tiết về thí nghiệm lăng kính của Newton.

Sau đó, hãy tạo góc nhìn thứ nhất về một người đang ngồi tại bàn cà phê có hình ảnh ở Công viên Quảng trường Washington, vẽ lại vào một cuốn sổ tay.

Sau đó, trong cùng một cảnh, hãy cho thấy một Newton trẻ tuổi đang ngồi ở bàn, cầm một lăng kính để chứng minh kết quả của một thí nghiệm, và cẩn thận không để lộ cuốn sổ tay trong bức tranh.

Nhiều chức năng được lặp lại để tạo ra hình ảnh tốt hơn

Theo tuyên bố chính thức của OpenAI, GPT-4o đã được cải thiện ở nhiều khía cạnh so với các mô hình trước đó:

Tích hợp văn bản tốt hơn: Không giống như các mô hình AI trước đây gặp khó khăn trong việc tạo ra văn bản rõ ràng, đúng vị trí, GPT-4o hiện có thể nhúng văn bản vào hình ảnh một cách chính xác;
Hiểu biết ngữ cảnh nâng cao: GPT-4o cho phép người dùng liên tục tinh chỉnh hình ảnh trong quá trình tương tác bằng cách tận dụng lịch sử trò chuyện và duy trì
Cải thiện khả năng liên kết nhiều đối tượng: Trong khi các mô hình trước đây gặp khó khăn trong việc định vị chính xác nhiều đối tượng khác nhau trong một cảnh, thì giờ đây GPT-4o có thể xử lý cùng lúc tới 10-20 đối tượng;
Chuyển đổi nhiều phong cách: Mô hình có thể tạo hoặc chuyển đổi hình ảnh thành nhiều phong cách khác nhau, hỗ trợ chuyển đổi từ bản phác thảo vẽ tay sang phong cách thực tế có độ nét cao.

OpenAI cho biết từ những bức tranh hang động đầu tiên cho đến đồ họa thông tin hiện đại, con người đã sử dụng hình ảnh trực quan để giao tiếp, truyền đạt và phân tích. Các mô hình sáng tạo ngày nay có thể tạo ra những cảnh tượng siêu thực, đầy cảm hứng, nhưng lại gặp khó khăn khi tạo ra những hình ảnh thực tế mà mọi người sử dụng để chia sẻ và tạo thông tin. Thật vậy, từ logo đến sơ đồ, hình ảnh dựa trên ngôn ngữ chung và các biểu tượng có liên quan thực nghiệm thường có thể truyền tải ý nghĩa chính xác.

Công nghệ tạo hình ảnh GPT-4o có khả năng thể hiện văn bản một cách chính xác, tuân thủ chính xác lời nhắc và tận dụng cơ sở kiến thức và ngữ cảnh trò chuyện vốn có của 4o — bao gồm chuyển đổi trực tiếp hình ảnh đã tải lên hoặc sử dụng chúng làm nguồn cảm hứng trực quan cho các sáng tạo của bạn. Những tính năng này giúp bạn dễ dàng tạo ra hình ảnh như mong muốn, giúp người dùng giao tiếp trôi chảy thông qua các hiệu ứng hình ảnh và thực sự biến việc tạo hình ảnh thành một công cụ thiết thực với độ chính xác và ý nghĩa thực tế mạnh mẽ.

Bằng cách đào tạo mô hình chung bằng hình ảnh trực tuyến và nội dung văn bản, công nghệ tạo hình ảnh GPT-4o không chỉ tìm hiểu mối liên hệ nội bộ giữa hình ảnh và ngôn ngữ mà còn nắm bắt được sự tương ứng giữa hai yếu tố này. Kết hợp với thiết kế sau đào tạo tích cực, mô hình tạo ra đạt được khả năng trực quan đáng kinh ngạc và có thể tạo ra hình ảnh có tính hữu ích cao, nhất quán và nhận biết được ngữ cảnh.

Một bức tranh có giá trị hơn ngàn lời nói, nhưng đôi khi chỉ cần một vài từ đúng chỗ cũng có thể tạo nên sự khác biệt lớn. 4o kết hợp các ký hiệu chính xác với hình ảnh, khiến cho việc tạo ra hình ảnh thực sự sở hữu các thuộc tính truyền thông trực quan.

OpenAI đã công bố một số ví dụ chính thức.

Tạo hình ảnh chân thực về hai Phù thủy ở độ tuổi 20 (một người có mái tóc xám và người kia có mái tóc dài gợn sóng màu hạt dẻ) đang đọc biển báo đường.

Mẹo:

Trên một con phố ở Williamsburg, New York, các biển báo đường bộ hiển thị lượng lớn các ký hiệu đường phố chi tiết (như thời gian quét đường, yêu cầu về giấy phép đỗ xe, phân loại xe và quy định kéo xe), cũng như một số thông tin trên cao (được trình bày dưới dạng đánh dấu đường hợp pháp), chẳng hạn như "Không được đỗ chổi Phù thủy ở Khu C", "Chỉ được dỡ thảm ma thuật (không quá 15 phút)" và "Chỉ được đỗ tuần lộc khi có giấy phép (ngày 24-25 tháng 12), những người vi phạm sẽ bị đưa vào danh sách hư". Biển báo giao thông được đặt bên phải đường, nội dung không được phép lặp lại và phải sao chép lại một cách chân thực.
Nhân vật: Một Phù thủy cầm chổi, phù thủy kia cầm tấm thảm ma thuật cuộn tròn. Hai người ở phía trước, quay lưng về phía bức ảnh, đầu hơi nghiêng và đang chăm chú nhìn vào biển báo đường. Bố cục từ bối cảnh đến tiền cảnh: đường phố + ô tô đỗ + tòa nhà -> biển báo đường phố -> Phù thủy. Nhân vật phải ở càng gần máy quay càng tốt.

Nhiều vòng thế hệ

Tạo hình ảnh hiện là tính năng gốc trong GPT-4o, do đó người dùng có thể tối ưu hóa nội dung hình ảnh thông qua cuộc trò chuyện tự nhiên. GPT-4o có thể được xây dựng từ hình ảnh và văn bản trong hoàn cảnh trò chuyện, đảm bảo nội dung luôn nhất quán. Ví dụ, nếu người dùng thiết kế một nhân vật trong trò chơi điện tử, ngoại hình của nhân vật sẽ giữ nguyên qua nhiều lần thiết kế khi họ tiếp tục cải tiến và thử nghiệm.

Trong bối cảnh trò chơi điện tử, tham khảo hình ảnh con mèo đầu vào và thêm một chiếc mũ thám tử và một chiếc kính đơn cho con mèo.

Chuyển đổi đồ họa thành đồ họa theo phong cách trò chơi điện tử AAA tạo ra bằng công cụ trò chơi 4k và thêm các thành phần giao diện người dùng để trình bày lớp phủ giống như trò chơi nhập vai. Có một thanh máu và một bản đồ nhỏ ở phía trên cùng, và các biểu tượng phép thuật cùng kiểu ở bên dưới.

Đã cập nhật đồ họa lên chế độ ngang 16:9, thêm nhiều yếu tố phép thuật hơn vào UI và thu nhỏ con mèo được sinh ra để xem nó chạy qua những con phố steampunk ở Manhattan theo góc nhìn thứ ba. Lưu ý việc sử dụng độ tương phản đẹp mắt và hiệu ứng ánh sáng thường thấy trong các trò chơi AAA, cũng như việc sử dụng màu sắc mát mẻ.

Tạo một giao diện hiển thị thông tin nhân vật và trang bị của Kitty khi người chơi mở menu, và một trang khác hiển thị nhiệm vụ hiện tại (nội dung nhiệm vụ phải phù hợp với góc nhìn thế giới được trình bày trong hình ảnh).

Thực hiện theo hướng dẫn

Khả năng tạo hình ảnh của GPT-4o tuân theo lời nhắc chi tiết và luôn chú ý đến các chi tiết. Trong khi các hệ thống khác có xu hướng gặp khó khăn khi xử lý hình ảnh chứa từ năm đến tám đối tượng, GPT-4o có thể xử lý tới 10 đến 20 đối tượng khác nhau trong khi kiểm soát tốt hơn mối liên kết chặt chẽ giữa các đối tượng, đặc điểm của chúng và mối quan hệ của chúng với nhau.

Tạo một hình ảnh vuông bao gồm lưới 4 hàng, 4 cột chứa 16 đối tượng trên bối cảnh trắng. Từ trái sang phải, từ trên xuống dưới, các đối tượng là:

Một ngôi sao xanh
Tam giác đỏ
Hình vuông xanh
Vòng tròn màu hồng
Đồng hồ cát màu cam
Biểu tượng vô cực màu tím
Nơ chấm bi đen trắng
Tie-dye họa tiết số 42
Một con mèo màu cam đội mũ bóng chày màu đen
Một bản đồ có rương kho báu
Một đôi mắt to
Biểu tượng cảm xúc ngón tay cái hướng lên
Một cặp kéo
Một con hươu cao cổ màu xanh và trắng
Từ "OpenAI" được viết bằng chữ thảo
Một tia sét cầu vồng

Chủ nghĩa hiện thực và phong cách đồ họa

Bằng cách kết hợp các cảnh quay phản ánh nhiều phong cách hình ảnh khác nhau vào quá trình đào tạo, mô hình 4o có thể tạo ra hoặc chuyển đổi hình ảnh một cách chân thực.

Một bức ảnh theo phong cách paparazzi cho thấy Karl Marx đang vội vã đi qua bãi đậu xe của Trung tâm mua sắm Mall of America, ngoái lại nhìn với vẻ mặt kinh hoàng khi cố gắng không bị chụp ảnh. Anh ta cầm chặt một vài chiếc túi mua sắm sáng bóng chứa đầy những món đồ xa xỉ. Chiếc áo khoác của anh ta tung bay trong gió và một trong đó những chiếc túi của anh ta đung đưa như thể anh ta đang sải bước. Bối cảnh mờ với ô tô và lối vào trung tâm mua sắm phát sáng để nhấn mạnh chuyển động. Đèn flash của máy ảnh đã làm cho cảnh quay bị phơi sáng quá mức, tạo cảm giác giống như trong báo lá cải.

Mặc dù hình ảnh tạo ra sống động và chân thực, OpenAI cũng thừa nhận rằng các mô hình này không hoàn hảo và còn nhiều hạn chế. OpenAI sẽ giải quyết những vấn đề này thông qua những cải tiến liên tục sau bản phát hành đầu tiên.

Trong một cuộc phỏng vấn với giới truyền thông, Goh cũng đề cập, “Cuối cùng, không có hệ thống nào là hoàn hảo, nhưng chúng tôi liên tục cải thiện các biện pháp bảo vệ của mình và chúng tôi cho rằng đây là điểm khởi đầu. Tất cả hình ảnh do ChatGPT tạo ra đều có một điểm chung, đó là người dùng sở hữu chúng và có thể sử dụng chúng tùy ý trong phạm vi chính sách sử dụng của chúng tôi.”

Ngoài ra, OpenAI còn hỗ trợ việc tạo ra hình ảnh của những người của công chúng và những hình ảnh không chính xác lịch sử nhưng do người dùng chỉ định.

Lần, OpenAI chú trọng đến vấn đề an toàn hơn bao giờ hết.

OpenAI cho biết, "Theo đặc tả mô hình, chúng tôi hy vọng sẽ tối đa hóa quyền tự do sáng tạo bằng cách hỗ trợ các trường hợp sử dụng có giá trị thực như phát triển trò chơi, khám phá lịch sử và giáo dục, đồng thời duy trì các tiêu chuẩn an toàn nghiêm ngặt. Nói cách khác, việc chặn các yêu cầu vi phạm là điều kiện tiên quyết cần thiết để đảm bảo việc triển khai hệ thống. Chúng tôi đang nỗ lực để đảm bảo nội dung an toàn và hữu ích thông qua các phương tiện sau, đồng thời hỗ trợ người dùng thể hiện cảm hứng và ý tưởng của mình một cách rộng rãi thông qua sự sáng tạo."

Đầu tiên, khả năng truy xuất được thực hiện thông qua C2PA và tìm kiếm đảo ngược nội bộ. Hiện tại, tất cả hình ảnh được tạo ra đều có dữ liệu C2PA, được sử dụng để chỉ ra rằng hình ảnh đến từ GPT-4o nhằm đảm bảo tính công khai và minh bạch. Ngoài ra, OpenAI còn xây dựng một công cụ tìm kiếm nội bộ sử dụng các thuộc tính công nghệ tạo sinh để giúp xác minh rằng nội dung có đến từ mô hình của chúng tôi hay không.

Thứ hai, OpenAI cho biết họ sẽ kiên quyết chặn nội dung xấu. Chúng tôi sẽ tiếp tục chặn các yêu cầu tạo hình ảnh có thể vi phạm chính sách nội dung của chúng tôi, chẳng hạn như nội dung lạm dụng tình dục trẻ em và hình ảnh ngụy tạo độ sâu . Đối với hình ảnh người thật trong bối cảnh cụ thể, OpenAI sẽ áp dụng các hạn chế nghiêm ngặt đối với hình ảnh có thể tạo ra và thực hiện các biện pháp cực kỳ nghiêm ngặt chống lại tình trạng khỏa thân và bạo lực. Tất nhiên, nâng cấp bảo mật không bao giờ kết thúc và sẽ là một lĩnh vực đầu tư liên tục quan trọng.

Thứ ba, sử dụng lý luận để tăng cường bảo mật. OpenAI đã đào tạo một tập hợp lớn các mô hình lý luận để xác định và giải quyết những điểm mơ hồ trong chính sách dựa trên các thông số kỹ thuật an toàn có thể giải thích được do con người viết ra. Việc kết hợp ChatGPT với công nghệ bảo mật đa phương thức được Sora sử dụng cho phép điều chỉnh linh hoạt văn bản đầu vào và hình ảnh đầu ra dựa trên các chính sách hiện có.

Tuy nhiên, mặc dù công nghệ tạo hình ảnh 4o hiện nay vượt trội hơn DALL·E 3 về tính đa dạng trong biểu diễn giới tính, nhưng kết quả đầu ra vẫn chủ yếu thiên về đối tượng là nam giới. Do đó, OpenAI tuyên bố rằng công việc tương lai của họ sẽ tập trung vào việc cải thiện sự cân bằng dữ liệu để làm cho mô hình công bằng hơn.

Phương pháp truy cập và thời gian ra mắt

Là công cụ tạo hình ảnh mặc định trong ChatGPT, chức năng tạo hình ảnh 4o hiện đã hoàn toàn mở cho người dùng Plus, Pro, Team và Free. Quyền truy cập Enterprise và Edu sẽ được mở sau. Sora cũng có thể được hưởng lợi từ tính năng nâng cấp lần . Đối với người dùng muốn tiếp tục sử dụng DALL-E, chức năng mới này có thể được truy cập thông qua DALL-E GPT chuyên dụng.

Các nhà phát triển sẽ sớm có thể sử dụng khả năng tạo hình ảnh của GPT-4o thông qua API, với quyền truy cập sẽ được mở trong những tuần tới.

OpenAI cho biết toàn bộ quá trình tạo và tùy chỉnh hình ảnh dễ dàng như trò chuyện với GPT-4o - chỉ cần mô tả yêu cầu của bạn, bao gồm các chi tiết như tỷ lệ khung hình, màu sắc chính xác bằng mã thập lục phân hoặc bối cảnh trong suốt. Vì mô hình này tạo ra hình ảnh có độ chi tiết cao hơn nên thời gian kết xuất có thể lâu hơn, lên tới một phút.

Liên kết tham khảo:

https://openai.com/index/introducing-4o-image-generation/

Bài viết này trích từ tài khoản công khai WeChat "AI Frontline" do Dongmei biên soạn và 36Kr xuất bản với sự cho phép.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan