Phiên bản alpha của Midjourney v7, được phát hành tuần trước, xuất hiện tại thời điểm mà trình tạo hình ảnh từng thống trị rõ ràng đang mất dần thế thượng phong. Mặc dù vẫn còn một cơ sở người dùng khổng lồ trên Discord với khoảng 20 triệu người, các công cụ mới như GPT-4o của OpenAI, Reve, và Ideogram 3.0 đã vượt qua nó về tính chân thực, độ chính xác và chức năng.
Mô hình mới đánh dấu bản cập nhật lớn đầu tiên của Midjourney trong gần một năm, giới thiệu các cải tiến về khả năng hiểu lệnh văn bản và chất lượng hình ảnh. Nó cũng ra mắt Chế độ Nháp để tạo hình ảnh nhanh hơn, rẻ hơn và yêu cầu người dùng hoàn thành quá trình cá nhân hóa bằng cách xếp hạng các cặp hình ảnh để xây dựng hồ sơ cá nhân.
"Đây là mô hình thông minh, đẹp và nhất quán nhất của chúng tôi," nhóm Midjourney đã viết trên X. "Hãy thử và mong đợi các bản cập nhật mỗi tuần hoặc hai tuần trong hai tháng tới."
Trong khi Midjourney truyền thống xuất sắc về sáng tạo và thẩm mỹ hơn là độ chính xác hay tạo văn bản, v7 cố gắng thu hẹp khoảng cách này thông qua các tương tác ngôn ngữ tự nhiên tốt hơn để chỉnh sửa hình ảnh và tự động nâng cao lệnh.
Một số người dùng đang đoán rằng các mô hình của OpenAI có thể cung cấp năng lực cải thiện xử lý văn bản này. Mô hình có khả năng hiểu các lệnh văn bản và giọng nói tự nhiên, thực thi chúng và tự động cải thiện lệnh, và Midjourney chưa phát triển LLM để xử lý điều này một cách độc lập. Thực tế, khi được hỏi, mô hình tạo ra các tham chiếu đến OpenAI và GPT, như bạn có thể thấy trong bài kiểm tra của chúng tôi dưới đây.
Midjourney chưa xác nhận hay phủ nhận mối liên hệ này, cũng như chưa trả lời email của chúng tôi về vấn đề này. Nếu điều này được chứng minh là sự thật, thì hãy mong đợi các "lệnh nâng cao" của bạn sẽ được lọc theo chính sách của OpenAI. Ngoài ra, nó có thể có nghĩa là giá cao hơn hoặc giảm số lần tạo hình ảnh theo gói, vì một phần năng lực tính toán sẽ được chuyển để trả chi phí API.
Midjourney v7 mang đến một số nâng cấp đáng chào đón, bao gồm khả năng hiểu lệnh tốt hơn và cấu trúc hình ảnh nhất quán hơn, đặc biệt là ở những khu vực từng khó khăn như bàn tay và đồ vật. Nhưng vào năm 2025, đây chỉ là những điều cơ bản - không phải là những bước đột phá.
Có lẽ bổ sung đáng kể nhất là Chế độ Nháp, tạo hình ảnh nhanh gấp 10 lần và chi phí bằng một nửa so với các tùy chọn tiêu chuẩn. Tính năng này nhằm giúp người dùng động não và lặp lại nhanh chóng, mặc dù chất lượng đầu ra thô hơn và ít chi tiết hơn so với các bản hiển thị đầy đủ, tương tự như chế độ Flow của Leonardo và công cụ Reimagine của Freepik.
Không giống các phiên bản trước, v7 có tính năng cá nhân hóa được bật theo mặc định. Người dùng mới phải xếp hạng khoảng 200 hình ảnh để xây dựng hồ sơ phù hợp với sở thích thẩm mỹ của họ - một bước không được yêu cầu trong các phiên bản trước. Điều này có nghĩa là người dùng sẽ tự động có một phiên bản Midjourney tùy chỉnh được định cấu hình để phù hợp với phong cách và nhu cầu của họ, và sẽ phát triển theo thời gian khi người dùng xếp hạng nhiều hình ảnh hơn.
Nó hơi khó chịu đối với người dùng mới, nhưng toàn bộ quá trình thiết lập chỉ kéo dài khoảng 5 phút và đáng đầu tư do nâng cấp chất lượng. Những người dùng lâu năm đã đào tạo các mô hình cá nhân với hàng ngàn xếp hạng hình ảnh, giải thích một phần sự hấp dẫn của nền tảng - nhưng đó là một nhiệm vụ nặng nề đối với người dùng mới.
Tuy nhiên, phiên bản alpha thiếu hỗ trợ cho một số chức năng V6 như remix, và các tham số như Chất lượng, Dừng, Tile và Kỳ lạ. Các chức năng như phóng to và vẽ lại vẫn quay lại V6.1, cho thấy sự phát triển đang diễn ra trong các lĩnh vực này.
Các bản phát hành của Midjourney trước đây từng gây choáng ngợp khi so sánh với thế hệ trước; V4 như một bước nhảy vọt so với v3. Nhưng với v7, phép thuật đang phai nhạt.
Phiên bản alpha này cho thấy dấu hiệu tiến bộ, nhưng không gần với sự đổi mới đến từ các đối thủ như GPT-4o hay Reve. Các bài kiểm tra của chúng tôi cho thấy sự cải thiện khiêm tốn so với V6.1 - không phải là loại nâng cấp giúp giành lại ngôi vương.
Việc kiểm tra Midjourney v7 so với phiên bản trước của nó cho thấy kết quả hỗn hợp trên bốn danh mục chính: tính chân thực, tuân thủ lệnh, giải phẫu học và hiểu biết về phong cách nghệ thuật. Kết quả của chúng tôi cho thấy, ít nhất là phiên bản alpha này, vẫn đang trên con đường cũ: Một nâng cấp tốt, nhưng không gây choáng váng.
(Phần còn lại của bản dịch tương tự, tuân thủ nguyên tắc giữ nguyên các thẻ <> và dịch nội dung)Trình soạn thảo ngôn ngữ tự nhiên mới này, tuy nhiên, hoàn toàn khác biệt. Nó rời xa phương pháp truyền thống của Stable Diffusion và mang đến cho người dùng trải nghiệm đắm chìm hơn, tương tự như những gì OpenAI đã giới thiệu với DALL-E 3.
Sau khi tạo một lời nhắn trong chế độ nháp, người dùng có thể đưa ra lời nhắn bằng ngôn ngữ tự nhiên trong ô văn bản tương ứng, và mô hình sẽ hiểu rằng nó được yêu cầu chỉnh sửa thế hệ trước đó.
Midjourney cũng đã giới thiệu tính năng chuyển giọng nói thành văn bản, về cơ bản cho phép người dùng nói chuyện với giao diện người dùng và xem nó xử lý yêu cầu. Điều này rất tốt cho người mới bắt đầu, vì nó loại bỏ hầu hết các khó khăn.
Tuy nhiên, khi so sánh với các đối thủ cạnh tranh, nó được thực hiện kém. Khi người dùng yêu cầu một thay đổi cụ thể, Midjourney về cơ bản chỉnh sửa toàn bộ hình ảnh, do đó các thế hệ mới có xu hướng mất đi chủ thể hoặc tính nhất quán về phong cách.
Mặt khác, các mô hình như ChatGPT và Reve - những mô hình cũng triển khai tính năng này - đã tốt hơn đáng kể và có khả năng duy trì các tính năng chính của các hình ảnh gốc đang được chỉnh sửa.
Ví dụ, đây là cách ChatGPT xử lý chính xác cùng một lần lặp lại: tạo một con mèo trên một con chó đang đi xe đạp, và sau đó được yêu cầu làm cho con mèo đeo mũ đỏ.
Phiên bản mới này là một nâng cấp đáng hoan nghênh có thể giữ chân những fan cứng của Midjourney sẵn sàng trả tiền đăng ký, bắt đầu từ 10 đô la một tháng. Tuy nhiên, với 20 đô la một tháng, ChatGPT cho thấy sự tuân thủ lời nhắn tốt hơn, nhận thức không gian tốt hơn và bao gồm các tính năng bổ sung, cũng như quyền truy cập vào tất cả các mô hình khác. Reve (giá đăng ký bắt đầu từ 10 đô la mỗi tháng) cũng tốt hơn về phong cách và tính chân thực.
Hãy lưu ý rằng đây chỉ là bản phát hành alpha, có nghĩa là kết quả không nhất thiết sẽ giống sản phẩm cuối cùng. Người dùng cũng có tùy chọn cá nhân hóa mô hình, điều này có thể hấp dẫn và là điều mà các mô hình khác không cung cấp.
Các kết quả hỗn hợp trên các danh mục thử nghiệm của chúng tôi cho thấy đây là sự tiến hóa của mô hình nhiều hơn là cuộc cách mạng mà chúng ta đang chứng kiến ở làn sóng mới của các trình tạo hình ảnh. Nếu bạn không gắn bó với Midjourney, thì mô hình Alpha này chắc chắn sẽ không làm bạn kinh ngạc.
Tính năng chỉnh sửa hình ảnh là một bổ sung hay, nhưng có thể là một con dao hai lưỡi. Nó có thể sáng tạo đủ để cho phép người dùng tạo ra những thứ tuyệt vời, nhưng sự thiếu nhất quán của nó khiến nó không đáng tin để người dùng được lợi từ việc chỉnh sửa các bức ảnh cụ thể. Vì vậy, trình chỉnh sửa truyền thống, phức tạp hơn là lựa chọn duy nhất hợp lý.
Nhìn chung, nếu bạn thực sự yêu thích Midjourney, thì nâng cấp này sẽ mang đến cho bạn lý do để ở lại và tận hưởng trải nghiệm tốt hơn và tươi mới hơn với các tính năng mới được giới thiệu. Nhưng trừ khi bạn thích sự hỗn loạn và đau khổ của Discord hoặc là fan của sự sáng tạo tự do của nó, thì không có nhiều lý do để thử Midjourney ngay bây giờ.