GPT-4o đã lấy mất công việc của Midjourney như thế nào

avatar
36kr
04-11
Bài viết này được dịch máy
Xem bản gốc

Vào ngày 26 tháng 3 năm 2025, OpenAI chính thức công bố vào sáng sớm rằng chức năng tạo hình ảnh đa phương thức gốc của GPT-4o ra mắt. Người dùng không cần phải đăng nhập vào mô hình đồ thị dựa trên văn bản DALL-E của OpenAI nữa, họ có thể trực tiếp gọi 4o trong ứng dụng ChatGPT để tạo và chỉnh sửa hình ảnh.

Chỉ sau một đêm, những hình ảnh Ghibli được tạo ra bằng AI đã lan truyền nhanh chóng trên các phương tiện truyền thông xã hội như X, và Internet tràn ngập làn sóng nhẹ nhàng theo phong cách hai chiều. Mọi người tải ảnh tự sướng của mình lên và gõ "phong cách Ghibli". Vài giây sau, vẻ đẹp và sự kỳ ảo trong hoạt hình của Hayao Miyazaki hiện lên giữa mái tóc và trang phục của họ. Ngay cả Ultraman, người sáng lập OpenAI, cũng đăng ảnh đại diện Ghibli của mình, khiến cơn sốt này càng thêm sôi động.

Tuy nhiên, sự nổi tiếng của Ghibli chỉ là một trong những lý do. Quan trọng hơn, khả năng vẽ của GPT-4o đã phá vỡ khuôn mẫu vốn có trong lĩnh vực hình ảnh văn học. Lần đầu tiên, con đường do các ứng dụng dọc như Midjourney dẫn đầu đã bị thách thức bởi các mô hình lớn.

Thực tế là khi mọi người sử dụng Midjourney để tạo ra hình ảnh, họ vẫn phải đối mặt với một vấn đề nghiêm trọng: tính ngẫu nhiên quá lớn. Khi các từ gợi ý quá phức tạp, mức độ khôi phục chi tiết sẽ giảm đáng kể. Bước tiến vượt bậc trong khả năng kiểm soát hình ảnh của GPT-4o cho phép con người lần cảm nhận được sức hấp dẫn của việc chỉnh sửa hình ảnh một cách chính xác trong nhiều vòng trò chuyện với các nghệ sĩ AI.

Vậy, làm thế nào mà GPT-4o, một mô hình lớn đa năng mà con người nghĩ rằng chỉ có thể trò chuyện, lại vượt qua được Midjourney, một công ty chuyên nghiệp trong lĩnh vực hình ảnh văn học?

01 Họa sĩ toàn năng

Trên thực tế, các ứng dụng tương tự như Midjourney đã có thể tạo ra hình ảnh theo nhiều phong cách khác nhau như Ghibli, cyberpunk và siêu thực từ một năm trước và thậm chí còn tốt hơn một chút so với GPT-4o về độ tinh tế và độ phân giải của hình ảnh. Nhưng sự thông minh của GPT-4o nằm ở chỗ nó không chọn cạnh tranh trực tiếp với chất lượng hình ảnh thô trong lĩnh vực nghệ thuật, mà thay vào đó vượt qua các đối thủ khác về ngưỡng ứng dụng, chỉnh sửa và chỉnh sửa hình ảnh cũng như khả năng liên ngành.

Đầu tiên, việc cải thiện khả năng giao tiếp bằng ngôn ngữ tự nhiên đã hạ thấp đáng kể ngưỡng sử dụng. Trong lĩnh vực đồ họa văn hóa truyền thống, người dùng phải nắm vững một loạt các gợi ý có cấu trúc phức tạp, chẳng hạn như phong cách, ống kính, màu sắc, góc độ, bối cảnh, chủ đề, v.v. Một lỗi nhỏ có thể dẫn đến một lỗi lớn. GPT-4o có thể hiểu chính xác các lệnh bằng ngôn ngữ tự nhiên, do đó bạn chỉ cần giao tiếp như thể đang nói chuyện với bạn bè là bức vẽ sẽ trở thành hiện thực.

Ngôn ngữ tự nhiên là ngôn ngữ thông thường, ngôn ngữ nói trong cuộc sống hàng ngày. Ví dụ, nếu bạn cần một bức ảnh thác nước, chỉ cần nói với GPT-4o, "Giúp tôi tạo một thác nước cầu vồng trong một khu rừng rậm vào sáng sớm". Nhưng đối diện Midjourney, bạn cần sử dụng các hướng dẫn nhắc nhở có cấu trúc cao như hướng dẫn trong hình bên dưới để cho biết: phần thân chính của hình ảnh là gì, màu bối cảnh là gì, đó là góc nâng, góc hạ hay góc nhìn thẳng, và phong cách là tranh sơn dầu, cổ điển hay cyberpunk. Cần phải chia nhỏ đến mức này để đạt được hiệu ứng lý tưởng, nhưng ngay cả khi chia nhỏ như vậy, vẫn sẽ có một số thành phần hình ảnh không liên quan nổi bật và thêm vào các chi tiết không cần thiết.

Thứ hai là ra mắt của các chức năng tạo và chỉnh sửa hình ảnh nhờ vào khả năng đa phương thức . Các ứng dụng như Midjourney chỉ có thể gửi lệnh văn bản và không hỗ trợ tải hình ảnh lên rồi chỉnh sửa hoặc điều chỉnh độ phân giải, màu sắc hoặc bối cảnh của hình ảnh sau khi AI tạo ra hình ảnh. Nếu hình ảnh thu được không lý tưởng, bạn chỉ có thể quay lại bước đầu tiên và viết lại các từ gợi ý để thử vận ​​may. Hình ảnh được tạo trước đó sẽ không hợp lệ.

Sức mạnh của GPT-4o nằm ở chỗ người dùng có thể tải ảnh lên và chỉnh sửa lần. Có thể do AI tạo ra hoặc tự động thực hiện. Ví dụ, bạn có thể tải lên ảnh toàn thân, thay đổi kiểu tóc thành sóng lớn và thay đổi trang phục thành váy trong giỏ hàng để xem hiệu ứng trên cơ thể. Nó hỗ trợ chỉnh sửa và chỉnh sửa ảnh trên các bức ảnh có sẵn, nghĩa là chúng ta không cần phải học PS, một công nghệ chỉnh sửa ảnh có nhiều rào cản.

Điều tuyệt vời hơn nữa là nó cho phép thực hiện nhiều vòng trò chuyện, giúp bạn có thể thay đổi không giới hạn hình ảnh gốc cho đến khi bạn hài lòng. Bạn có thể thay đổi kiểu tóc, đổi bối cảnh thành sa mạc hoặc điều chỉnh kiểu bộ lọc. Chỉ cần bạn muốn, nó sẽ thỏa mãn bạn.

Nguồn hình ảnh: Xiaohongshu@Mr.Tangxiansen

Ngoài ngưỡng tương tác thấp hơn và khả năng kiểm soát hình ảnh được cải thiện, kho kiến ​​thức liên ngành của GPT-4o cũng rất đáng kinh ngạc. GPT-4o, tích hợp cơ sở kiến ​​thức gốc của một mô hình ngôn ngữ lớn, tương đương với một họa sĩ biết về thiên văn học và địa lý. Nó không chỉ có thể giải quyết các bài toán vật lý nâng cao mà còn có thể phục hồi các bản phác thảo kiến ​​trúc. Ngược lại, Midjourney, với tư cách là một ứng dụng theo chiều dọc, luôn bị giới hạn trong lĩnh vực nghệ thuật, phục vụ cho ngành công nghiệp giải trí như quảng bá phim và quảng cáo.

GPT-4o mạnh đến mức nào? Khi đưa ra một câu hỏi, bạn có thể tạo biểu đồ hàm, tương đương với ứng dụng chụp ảnh và tìm kiếm câu hỏi có hướng dẫn vẽ. Ngay cả khi bạn phác thảo kiến ​​trúc bằng bút chì mà không cần tô màu, nó vẫn có thể tạo ra quang cảnh thực tế của ngôi nhà sau khi xây dựng, hoàn toàn vượt qua ranh giới của các chuyên ngành. Đây là một trường toàn diện với cả khoa học tự nhiên và khoa học xã hội.

Nguồn hình ảnh: Xiaohongshu@Yun'an

Vì chức năng chỉnh sửa ảnh thô của GPT-4o tuyệt vời đến vậy, chúng ta phải tự hỏi, đằng sau sự phổ biến của nó, nó có thể mang lại giá trị thực tế gì cho người dùng bình thường?

vượt qua nghệ thuật, GPT-4o còn có nhiều ứng dụng thực tế hơn

Chỉ trong vòng một tuần sau khi ra mắt, Giám đốc điều hành của Midjourney, David Holtz, không thể ngồi yên nữa và đã đăng một thông điệp rằng: GPT-4o chỉ là một kệ hoa, và Midjourney-v7 ra mắt vào tuần tới.

Vẫn khó có thể nói giữa GPT-4o và Midjourney, cái nào tốt hơn. Nhưng điều chắc chắn là GPT-4o đã trở nên phổ biến. Nó đã thoát khỏi giới hạn của các nhà thiết kế và xâm nhập vào môi trường làm việc của hầu hết mọi người. Ngay cả khi bạn không biết ảnh thô AI là gì, bạn cũng phải biết rằng một công cụ trực tuyến có thể chỉnh sửa ảnh bằng miệng đã bất ngờ xuất hiện trên mạng xã hội.

Vậy, tại sao GPT-4o lại phổ biến đến vậy và giá trị thiết thực nhất mà nó mang lại cho chúng ta là gì?

Trước hết, nó thực sự không có ngưỡng ứng dụng. Người dùng thậm chí không cần bất kỳ kỹ năng nghệ thuật hay nền tảng AI nào. Những người bình thường không có kiến ​​thức cơ bản cũng có thể bắt đầu ngay. Để sử dụng Midjourney, bạn phải biết một số kiến ​​thức cơ bản về hội họa như thể loại, màu sắc, quang học, khung hình, v.v., cũng như các lệnh tiếng Anh cơ bản như /imagine (tạo hình ảnh) và --ar (tỷ lệ khung hình ảnh). Nhưng với GPT-4o, bạn không cần phải hiểu về phối cảnh, khung hình, ánh sáng hay những lời nhắc có cấu trúc là gì. Bạn không cần bất kỳ kiến ​​thức chuyên môn nào cả. Bạn có thể chỉnh sửa ảnh giống như đang nói chuyện với bạn bè.

Nguồn hình ảnh: Xiaohongshu@Geek4Fun

Ngoài việc hạ thấp ngưỡng sử dụng, chất lượng và hiệu quả của các sản phẩm mẫu cũng được cải thiện đáng kể. Đầu tiên, việc tạo hình ảnh diễn ra nhanh hơn. Trước đây, phải mất khoảng 1 phút để phân tích các lệnh phức tạp khi sử dụng Midjourney, nhưng GPT-4o có thể khôi phục trong vòng 20 giây.

Thứ hai, khả năng kiểm soát hình ảnh thô và đã chỉnh sửa đã được cải thiện và GPT-4o có thể khôi phục hoàn toàn các hướng dẫn bạn đưa ra. Ví dụ, đối với cùng một hướng dẫn "Tạo cảnh một con mèo và một con chó đang chơi đùa trên cỏ", GPT-4o sẽ tạo ra một con mèo và một con chó đang chơi đùa trên cỏ, mà không có bất kỳ thành phần nào khác đột nhiên xuất hiện, nhưng Midjourney có thể thêm một công viên hoặc tòa nhà trên bãi cỏ và sẽ không tuân theo hướng dẫn hoàn toàn. Nói một cách dễ hiểu thì GPT-4o sẽ tuân thủ lệnh của bạn hơn. Nó giống như người hầu điện tử của bạn vậy. Nó sẽ làm bất cứ điều gì bạn bảo nó làm. Nó không làm bất cứ điều gì không cần thiết và thực hiện mọi việc cần làm với độ chính xác cao hơn.

Kết quả là, GPT-4o mở ra con đường cho tất cả mọi người và tham gia vào các tình huống công việc của chúng tôi. Trước đây, người dùng thông thường sử dụng Midjourney chủ yếu vì sở thích, với thuộc tính giải trí mạnh nhưng thuộc tính công cụ lại yếu. Mặc dù các hình ảnh được tạo ra theo nhiều phong cách khác nhau như tranh sơn dầu và hoạt hình trông rất đẹp, nhưng chúng không thể cải thiện hiệu quả công việc hoặc kiếm ra tiền. Chúng chủ yếu có vai trò về mặt ngoại hình.

Khả năng chỉnh sửa hình ảnh bằng miệng của GPT-4o đã mở rộng số lượng ngành công nghiệp có thể áp dụng công nghệ vẽ AI, chuyển từ giải trí và nghệ thuật sang chuyên môn hóa và năng suất, và có thể áp dụng cho thương mại điện tử, giáo dục, kiến ​​trúc, thiết kế và các ngành công nghiệp khác. Ví dụ, nếu con bạn không biết cách làm bài tập về nhà, bạn thường phải nhờ giáo viên giúp đỡ hoặc tải xuống ứng dụng trợ giúp làm bài tập về nhà. Học phí đắt đỏ và phần giải thích trên phần mềm trợ giúp làm bài tập chỉ là những đoạn văn bản khô khan, khó hiểu. Tuy nhiên, GPT-4o hoàn toàn có thể tạo ra sơ đồ dự thảo để giải thích cách tạo ra hàm và cách thu được câu trả lời. Quá trình suy luận diễn ra suôn sẻ và tự nhiên.

Một ví dụ khác là áp phích quảng cáo cho ngành thương mại điện tử. Bên A yêu cầu bạn tạo một poster tiếng Anh cho thị trường châu Âu và châu Mỹ, trong đó cả yếu tố thiết kế và ngôn ngữ đều cần được bản địa hóa và trau chuốt. Quá trình trước đây là làm việc với các nhà thiết kế để chỉnh sửa các thành phần, sử dụng phần mềm dịch để chỉnh sửa, sau đó nhập chúng vào phần mềm PS để chỉnh sửa, việc này tốn nhiều thời gian và công sức. Nhưng hiện nay GPT-4o chỉ cần một câu "Thay đổi poster này theo phong cách châu Âu và Mỹ, và đổi ngôn ngữ sang tiếng Anh" là có thể nhanh chóng thiết kế được một poster đáp ứng yêu cầu. Khả năng tích hợp liên ngành và liên lĩnh vực của nó rất mạnh mẽ.

03 Không chỉ là bản vẽ, điểm dừng chân tiếp theo cho các mô hình lớn là một nền tảng tích hợp

Sau khi nói về các bản vẽ phổ biến của GPT-4o, chúng ta hãy nói về những gì khác có thể được khám phá trong GPT-4o như một mô hình cấp cơ sở.

Chúng ta đều biết rằng Midjourney là một kiến ​​trúc ứng dụng trên một mô hình, nhưng bản thân GPT-4o là một mô hình và hình ảnh thô là một trong những khả năng của nó. ChatGPT, lần đầu tiên ra mắt vào năm 2022, chỉ là một trợ lý đàm thoại có khả năng giao tiếp bằng văn bản. Sau đó, nó có thể thực hiện cuộc gọi thoại và bây giờ nó có thể vẽ tranh. Nó liên tục được lặp lại và nâng cấp ở nhiều khía cạnh khác nhau.

Lần là GPT-4o có thể nổi bật trong cuộc đua lập bản đồ thực sự là nhờ vào sự xuất hiện của khả năng mô hình đa phương thức gốc của nó. Không giống như Midjourney, GPT-4o phải thực hiện nhiều bước kỹ thuật hơn. Mô hình cơ bản thường được sử dụng trong lĩnh vực đồ họa văn hóa được gọi là mô hình khuếch tán. Nguyên lý của nó là đầu tiên tạo ra một hình ảnh thô và sau đó loại bỏ nhiễu. Giống như vẽ tranh trên tuyết hay ngắm hoa trong sương mù, khả năng phục hồi của nó không cao. GPT-4o tiếp tục sử dụng mô hình hồi quy tự động Wenshengtu, tương đương với việc mở rộng thêm khả năng suy luận logic của dự đoán mã thông báo trước đó sang trường Wenshengtu. Bằng cách vẽ từng khung hình, nó suy ra điểm ảnh tiếp theo từ các điểm ảnh được tạo ra, về cơ bản là mô phỏng theo bức tranh của con người. Điều này có nghĩa là, không giống như các ứng dụng theo chiều dọc, các mô hình lớn có thể lựa chọn các đường dẫn kỹ thuật khác nhau từ kiến ​​trúc cơ bản và nâng cấp kiến ​​trúc thường mang lại bước nhảy vọt về hiệu suất, còn các chức năng dựa trên mô hình gốc như GPT-4o có nhiều không gian để phát triển hơn.

Thứ hai là sự kết hợp đa phương thức sẽ mang lại sự tích hợp xuyên miền. Là một mô hình lớn nói chung, GPT-4o có khả năng tích hợp thông tin ở nhiều định dạng khác nhau như văn bản, âm thanh và hình ảnh. Ở giai đoạn này, nó có thể thực hiện cuộc gọi điện thoại và chỉnh sửa hình ảnh thô. Trong tương lai, chúng ta sẽ rất mong chờ liệu âm nhạc và video có thể được tạo ra trực tiếp hay không. Trên thực tế, chức năng hình ảnh thô được GPT-4o ra mắt lần này được bắt nguồn từ mô hình hình ảnh thô DALL-E của OpenAI. Có lẽ, mô hình video Vincent van Gogh Sora của OpenAI cũng có thể được tích hợp vào mô hình GPT thông qua một số công nghệ. Đến lúc đó, việc xử lý chéo thông tin từ nhiều phương thức trong cùng một mô hình sẽ không còn xa vời.

Đổi mới đa phương thức cũng minh họa thêm rằng khi các mô hình trở nên đa chức năng hơn, khả năng xử lý nhiều nhiệm vụ khác nhau của chúng sẽ ngày càng mạnh mẽ hơn, dẫn đến giảm tổng chi phí sử dụng AI. Một xu hướng có thể thấy trước là các mô hình lớn đang cố gắng trở thành một trang web đóng gói trọn gói, tích hợp nhiều nhiệm vụ như mã hóa, thiết kế, âm nhạc, xử lý dữ liệu , v.v. Có thể một ngày nào đó trong tương lai, một mô hình tương tự như ChatGPT sẽ đủ mạnh để xếp hạng trong ba mô hình hàng đầu trong bất kỳ lĩnh vực nào. Chúng ta sẽ không còn cần phải tải xuống các ứng dụng dọc như Midjourney để vẽ, coze để viết code và suno để làm nhạc nữa. Chúng ta có thể tải trực tiếp mô hình tương tự như ChatGPT để giải quyết mọi vấn đề. Bằng cách này, điện thoại có nhiều bộ nhớ hơn và chạy hiệu quả hơn. Bạn cũng có thể tiết kiệm khoảng 100 nhân dân tệ phí tùy chỉnh thành viên cho các ứng dụng dọc mỗi tháng, tiết kiệm chi phí hơn.

Tóm lại, sự xuất hiện của khả năng vẽ của GPT-4o cho phép chúng ta thấy được khả năng tích hợp nhiều ứng dụng của mô hình lớn cơ bản. Viễn cảnh mong đợi xuất phát từ khả năng này là trong tương lai chúng ta có thể sử dụng các khả năng đa chiều như hội họa, âm nhạc và lập trình cùng lúc trong một mô hình trọn gói. Hơn nữa, ngưỡng sử dụng của nó rất thấp, thấp đến mức bất kỳ ai không có nền tảng kỹ thuật hoặc thậm chí không có kiến ​​thức về AI đều có thể sử dụng.

Và đây có thể là mục tiêu cuối cùng của con người khi phát minh ra AI - để đưa công nghệ đến mọi ngóc ngách.

Bài viết này trích từ tài khoản công khai WeChat "脑极体" (ID: unity007) , tác giả: Shanhu và được 36氪 cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận