Công ty trí tuệ nhân tạo xAI, do ông trùm công nghệ Elon Musk sáng lập, đã công bố Grok 2 vào thứ Tư, sự phát triển tiếp theo của chatbot AI. Bản phát hành mới nhất này đưa Grok vào lãnh thổ đa phương thức, tự hào có khả năng bao gồm hiểu văn bản, phân tích Twitter theo thời gian thực và tạo hình ảnh.
“Chúng tôi rất vui mừng khi phát hành bản xem trước sớm của Grok-2, một bước tiến đáng kể so với mô hình Grok-1.5 trước đây của chúng tôi, có các khả năng tiên tiến trong trò chuyện, mã hóa và lý luận”, xAI cho biết trong thông báo chính thức của mình. Công ty cho biết phiên bản Grok 2 trước đó “có hiệu suất vượt trội hơn cả Claude 3.5 Sonnet và GPT-4-Turbo”.
LmSYS, một hệ thống xếp hạng nguồn mở cho các mô hình ngôn ngữ lớn dựa trên thử nghiệm mù và sở thích của người dùng, đã xác nhận tuyên bố của xAI. Bản cập nhật xếp hạng đưa Grok-2 lên trước Claude 3.5 Sonnet và chỉ đứng sau GPT-4o mới nhất của OpenAI và Gemini 1.5 Pro của Google.
"Với hơn 12.000 lượt bình chọn của cộng đồng, [Grok 2] đã giành được vị trí số 3 trên bảng xếp hạng chung, thậm chí ngang bằng với GPT-4o! Nó nổi trội ở phần Lập trình (#2), Yêu cầu khó (#4) và Toán (#2)", LmSYS đưa tin trên Twitter.
Đáng chú ý là Grok 2 mới cùng phiên bản "mini" nhanh hơn và ít tính năng hơn chỉ có trên X (hay còn gọi là Twitter) dành cho những người đăng ký X Premium+, có giá 16 đô la một tháng hoặc 168 đô la một năm.
xAI cho biết cả "Grok-2 và Grok-2 mini hiện đang trong giai đoạn beta trên X" nhưng chúng tôi chỉ có thể truy cập vào phiên bản mini, vì vậy có lẽ đây là một đợt triển khai dần dần. Ngoài ra, nền tảng này đã ngừng tạo hình ảnh trong một thời gian ngắn, cho thấy giới hạn dịch vụ hoặc khả năng quá tải máy chủ. Cả hai trường hợp đều có thể gây bất lợi cho người dùng AI art power.
Chúng tôi đã thử trình tạo hình ảnh của Grok 2 và ấn tượng đầu tiên của chúng tôi không tốt, với kết quả có vẻ không mấy ấn tượng. Tuy nhiên, chúng tôi đã cải tiến kỹ thuật nhắc nhở của mình và sau một vài thế hệ, mọi thứ đã được cải thiện rất nhiều.
Chúng tôi bắt đầu bằng điều này:
Tuy nhiên, bằng cách kết hợp các yếu tố thẩm mỹ theo phong cách SDXL (sử dụng các từ khóa cụ thể được phân tách bằng dấu phẩy) với các mô tả cảnh bằng ngôn ngữ tự nhiên (tương tự như phương pháp Flux hoặc Dall-E 3), chúng tôi đã mở khóa được cấp độ chân thực cao hơn cho các thế hệ của mình, cuối cùng trông như thế này:
Không tệ... Có thể tốt hơn, nhưng không tệ chút nào.
Trước khi Grok tham gia vào lĩnh vực tạo hình ảnh, MidJourney, Flux, Ideogram, Leonardo và MidJourney đã tranh giành vị trí hàng đầu cho trình tạo hình ảnh tốt nhất, với mỗi mô hình đều xuất sắc trong các danh mục khác nhau. Vì vậy, chúng tôi đã so sánh nó với các công cụ dẫn đầu trong các tác vụ cụ thể, dựa trên những gì mỗi công cụ thực hiện tốt nhất.
Sau đây là quan điểm của chúng tôi, nhưng bạn có thể là người đánh giá.
Gợi ý: Ảnh Polaroid với bộ lọc VSCO, năm 1990, người phụ nữ tuyệt đẹp, ban đêm, ảnh chụp bằng đèn flash, tóc vàng, dễ thương, khuôn mặt trẻ, bóng đẹp, cây nhiệt đới, quần áo thành thị, bên trong một căn hộ, máy ảnh DSLR, cầm một tấm biển viết bằng bút bi trên một cuốn sổ ghi chú "Bức ảnh này được tạo ra bằng Decrypt sử dụng Grok 2 Mini."
Grok 2 Mini:
Grok 2 Mini đã mang lại một hình ảnh cực kỳ chân thực, nắm bắt hiệu quả tính thẩm mỹ của một chiếc Polaroid những năm 1990 với bộ lọc VSCO. Các chi tiết như bóng đổ, cây nhiệt đới và quần áo thành thị được khắc họa chính xác. Người mẫu đã tránh được những lỗi đáng kể, đảm bảo hình ảnh bám sát theo lời nhắc. Nó đóng khung hình ảnh để giống với một bức ảnh Polaroid.
Có thể có những khu vực nhỏ mà tính thẩm mỹ của thập niên 1990 có thể được thể hiện rõ hơn, nhưng những điều này không làm giảm đáng kể tính hiện thực tổng thể.
Ngoài ra, chữ viết rất hoàn hảo nhưng có vẻ như không phải được viết tay bằng bút bi.
Flux Dev (với Realism LoRA):
Flux Dev đã tạo ra một hình ảnh hấp dẫn về mặt thị giác, phù hợp với yêu cầu, đặc biệt là khi chụp bối cảnh ban đêm trong nhà.
Tuy nhiên, nó mắc nhiều lỗi đáng chú ý hơn so với Grok 2 Mini, đặc biệt là ở các chi tiết nhỏ góp phần tạo nên tính chân thực tổng thể. Bộ lọc VSCO không đáng chú ý, vị trí đặt ngón tay kỳ lạ và không thấy quần áo thành thị. Ngoài ra còn có một lỗi nhỏ trong cách viết, nhưng phông chữ có vẻ tự nhiên hơn.
Người chiến thắng: Grok 2 Mini chiến thắng trong hạng mục này nhờ tính chân thực vượt trội, chú ý đến từng chi tiết và ít lỗi nhất.
Tuy nhiên, điều cực kỳ quan trọng cần lưu ý là cần có các từ khóa cụ thể để đạt được mức độ chân thực này. Nếu thiếu những từ khóa đó, Grok 2 Mini sẽ tụt xuống mức tương tự như MidJourney v5. Vì vậy, hãy cẩn thận
Gợi ý: Ảnh Polaroid với bộ lọc VSCO, năm 1990, người phụ nữ tuyệt đẹp, ban đêm, ảnh chụp bằng đèn flash, tóc vàng, dễ thương, khuôn mặt trẻ, bóng đẹp, cây nhiệt đới, quần áo thành thị, bên trong một căn hộ, máy ảnh DSLR, cầm một tấm biển viết bằng bút bi trên một cuốn sổ ghi chú "Emerge by Decrypt là nguồn thông tin tốt nhất về AI, công nghệ, công nghệ sinh học và tất cả những thứ tương tự. Hãy đọc chúng tôi."
Grok 2 Mini:
Grok 2 Mini đã xuất sắc trong hạng mục này bằng cách tạo ra văn bản với ít lỗi hơn, đảm bảo rằng thông điệp rõ ràng và được tích hợp tốt vào hình ảnh. Mô hình duy trì tính chân thực của cảnh trong khi kết hợp hiệu quả văn bản dài.
Có thể có một chút chỗ để cải thiện về mặt thẩm mỹ chữ viết tay, nhưng đây là một vấn đề nhỏ. Lỗi duy nhất là thiếu một từ: "for" như trong "nguồn tốt nhất cho AI".
Flux Pro:
Flux Pro cũng tạo ra văn bản tốt, nhưng gặp khó khăn hơn về độ rõ ràng hoặc khả năng tích hợp, dẫn đến nhiều lỗi đáng chú ý hơn so với Grok 2 Mini.
Các lỗi trong quá trình tạo văn bản rõ ràng hơn, ảnh hưởng đến hiệu quả chung của hình ảnh. Nó tạo ra các hiện vật và bỏ sót một vài từ.
Người chiến thắng : Grok 2 Mini chiến thắng ở phần tạo văn bản, xử lý văn bản dài với ít lỗi hơn và duy trì được tính chân thực tổng thể.
Gợi ý: Một người đàn ông và một người phụ nữ đang ăn tối trong một nhà hàng tương lai, minh họa theo phong cách của Vincent Van Gogh. Nhà hàng có biển báo ghi "Chào mừng đến với Emerge, của Decrypt."
Grok 2 Mini:
Grok 2 Mini đã cố gắng nắm bắt phong cách của Van Gogh trong khi kết hợp các yếu tố tương lai của lời nhắc. Phong cách của VanGogh chỉ đáng chú ý ở bầu trời đêm bên ngoài, nhưng các yếu tố chính của bố cục không giống với phong cách của ông chút nào.
Nhìn chung, phong cách của Van Gogh có thể không được sao chép một cách thuyết phục vì thiếu nét cọ và bảng màu đặc trưng trong các tác phẩm của ông.
Leonardo:
Leonardo đã thể hiện tốt hơn trong việc tái hiện phong cách của Van Gogh, với những nét vẽ chính xác hơn và màu sắc sống động.
Có thể có một số điểm khác biệt nhỏ trong cách miêu tả các yếu tố tương lai, nhưng phong cách nghệ thuật là trọng tâm và được thực hiện tốt.
Người chiến thắng: Leonardo chiến thắng ở hạng mục này vì đã sao chép xuất sắc phong cách nghệ thuật của Van Gogh.
Lời nhắc: Một chú chó đứng trên một chú mèo, được thể hiện theo phong cách siêu thực với sự chú ý tỉ mỉ đến kết cấu lông và ánh sáng. Bên trái là một chú rô-bốt tương lai hoài cổ cũ kỹ với màn hình tương tự nứt vỡ hiển thị chữ "Emerge" bằng các điểm ảnh mờ, màu cam. Bên phải là một bác sĩ đáng sợ, mặc đồ cổ điển, đeo mặt nạ gas , cầm một ống tiêm theo phong cách cổ điển với một chút hơi nước bốc lên từ đó. Bối cảnh pha trộn các yếu tố của công nghệ mới nổi, nhưng với phong cách thẩm mỹ hoài cổ lấy cảm hứng từ những năm 1970: các xoắn DNA sần sùi, cũ kỹ, mã nhị phân được in trên giấy ố vàng, thiết bị thám hiểm không gian kiểu cũ và đồ điện tử tương lai hoài cổ cũ kỹ.
Grok 2 Mini:
Grok 2 Mini đã cố gắng xử lý tốt bối cảnh phức tạp, đảm bảo rằng mối quan hệ không gian giữa các yếu tố là hợp lý và mạch lạc về mặt thị giác nhưng không thể kết hợp tất cả các yếu tố vào cùng một bối cảnh. Thay vì một con chó trên một con mèo, chúng tôi có một con mèo trên màn hình.
Việc thiếu tỷ lệ hình ảnh rộng hơn có thể ảnh hưởng đến khả năng của nó. Ngoài ra, thực tế là không có cách nào để hướng dẫn hoặc tác động đúng cách đến việc tăng cường hoặc diễn giải nhanh chóng mà LLM của Grok thực hiện trước khi tạo hình ảnh là một điểm trừ khi một số yếu tố cụ thể được yêu cầu trong các cảnh phức tạp.
Biểu tượng:
Biểu tượng tượng hình nổi trội về nhận thức không gian, đảm bảo rằng tất cả các yếu tố được định vị chính xác và tích hợp vào bối cảnh. Sự chú ý đến từng chi tiết trong cách sắp xếp và tương tác giữa các đối tượng là vượt trội.
Tất nhiên, có một số khuyết điểm nhỏ về kết cấu hoặc ánh sáng, và các yếu tố được đặt giống như một bản ghép hơn là sự pha trộn logic, liền mạch mà Grok 2 mini hướng tới. Tuy nhiên, điều này là thứ yếu so với độ chính xác không gian tổng thể.
Người chiến thắng: Biểu tượng chiến thắng nhờ nhận thức không gian và bố cục vượt trội.
Grok 2 Mini chứng minh được mức độ linh hoạt cao hơn bằng cách tạo thành công hình ảnh của các nhân vật chính trị như Donald Trump và Kamala Harris. Nó có thể tạo ra hình ảnh ngay cả khi các ràng buộc về mặt đạo đức hoặc pháp lý có thể ngăn cản các mô hình khác.
Trên thực tế, điều này quá độc đáo đối với một mô hình độc quyền đến nỗi X tràn ngập những ví dụ đáng ngờ, tạo ra hình ảnh George Bush sử dụng ma túy, hoặc Trump và Harris sắp đâm máy bay vào tòa tháp đôi của Trung tâm Thương mại Thế giới ở New York. Nhiều ví dụ bao gồm các nhân vật có bản quyền từ các công ty như Disney và Ninetendo.
Chúng tôi không đi xa đến thế, thay vào đó đã tạo ra một Phó chủ tịch Harris yêu thích tiền điện tử mà không gặp vấn đề gì:
Các mô hình khác, như MidJourney và ChatGPT, tuân thủ các tiêu chuẩn đạo đức nghiêm ngặt hơn. Họ từ chối tạo hình ảnh của các nhân vật chính trị hoặc nội dung nhạy cảm về bản quyền khác. Cách tiếp cận này đảm bảo tuân thủ các khuôn khổ pháp lý và cân nhắc về đạo đức, giảm nguy cơ sử dụng sai mục đích.
Người chiến thắng: Grok 2 Mini chiến thắng về khả năng, vì nó có thể tạo ra nhiều hình ảnh hơn, bao gồm cả các hình ảnh đã biết. Tuy nhiên, để tạo nội dung có đạo đức, MidJourney và ChatGPT được ưa chuộng hơn.
Nhìn chung, tất cả các mô hình độc quyền chủ yếu bị kiểm duyệt về tình dục, máu me và các loại nội dung nhạy cảm hoặc xúc phạm khác. Đối với Use Case cụ thể đó, giải pháp tốt nhất là sử dụng các phiên bản tinh chỉnh của các mô hình nguồn mở hoặc các thành phần của bên thứ ba như LoRA, Lycoris và các nhúng thay đổi khả năng của các mô hình nguồn mở như Stable Diffusion hoặc Flux.
MidJourney có giới hạn rõ ràng hơn về cảnh khỏa thân và bạo lực. Nó có thể tạo ra cảnh khỏa thân nhẹ hoặc hình ảnh bạo lực theo một số lời nhắc nhất định, nhưng những trường hợp này thường được kiểm soát, không vượt qua ranh giới đạo đức và chủ yếu là giải pháp tạm thời hoặc ngẫu nhiên.
So sánh các mô hình nguồn đóng, Grok 2 Mini chiến thắng về khả năng do khả năng tạo ra nhiều nội dung hơn, bao gồm cả tài liệu không kiểm duyệt. Tuy nhiên, nó không có cơ hội chống lại Stable Diffusion và mức độ tùy chỉnh cực cao của nó.
Theo các thử nghiệm sơ bộ của chúng tôi, Grok 2 Mini hoạt động tốt hơn các đối thủ cạnh tranh trong việc tạo văn bản, do đó có thể coi đây là người chiến thắng chung cuộc trong hạng mục này.
Nó cũng có thể là mô hình tốt nhất cho chủ nghĩa hiện thực miễn là nó được nhắc nhở đúng cách với các từ khóa cụ thể vì vị trí từ dường như đóng vai trò lớn trong đầu ra. Những người tìm kiếm chủ nghĩa hiện thực hơn mà không cần quá cụ thể về lời nhắc có thể sử dụng MidJourney hoặc Flux.
Grok 2 Mini thực sự tệ trong việc xử lý các bố cục phức tạp hoặc hình ảnh nghệ thuật đòi hỏi các yếu tố sáng tạo cụ thể, vì vậy đây có thể là một điểm trừ đối với những người dùng chuyên biệt hơn.
Leonardo vẫn giữ vị trí dẫn đầu về phong cách nghệ thuật, và Ideaogram dẫn đầu về nhận thức không gian. Stable Diffusion vẫn là vua khi nói đến các thế hệ không kiểm duyệt, trong khi Flux có thể là lựa chọn tốt hơn cho những ai đang tìm kiếm trình tạo hình ảnh cục bộ và nguồn mở tốt nhất với khả năng văn bản tuyệt vời, tính chân thực và khả năng hiểu lời nhắc tự nhiên.
Việc lựa chọn mô hình "tốt nhất" phụ thuộc vào các yêu cầu cụ thể của nhiệm vụ trong tầm tay, với Grok 2 Mini là lựa chọn ưu tiên cho một loại chủ nghĩa hiện thực cụ thể, các kịch bản nhiều văn bản và các thế hệ nhạy cảm. Đối với bất kỳ điều gì khác, có những mô hình tốt hơn.





