Vừa đây, của Elon Musk đã ra mắt Grok-3, và nó đã gây chấn động trong thế giới AI, đi theo làn sóng của một cuộc chạy đua vũ trang được châm ngòi bởi sự ra mắt nổ tung của DeepSeek vào tháng Một.
Tại buổi ra mắt, nhóm xAI đã khoe những chuẩn mực danh giá được chọn lọc kỹ lưỡng, trình diễn khả năng lý luận của Grok-3 vượt trội so với các đối thủ, đặc biệt sau khi nó trở thành LLM đầu tiên vượt qua 1.400 điểm ELO trong LLM Arena, đặt mình vào vị trí LLM tốt nhất theo sở thích của người dùng.
Táo bạo? Tuyệt đối. Nhưng khi người đã giúp định nghĩa lại chuyến bay vũ trụ và ô tô điện nói rằng AI của ông ta là vua, bạn không chỉ gật đầu và đi tiếp.
Chúng tôi phải tự mình kiểm tra. Vì vậy, chúng tôi đã ném Grok-3 vào lò lửa, đối đầu nó với ChatGPT, , DeepSeek và Claude trong một trận chiến trực tiếp. Từ viết văn sáng tạo đến lập trình, tóm tắt, lý luận toán học, logic, chủ đề nhạy cảm, thiên vị chính trị, tạo hình ảnh và nghiên cứu sâu, chúng tôi đã kiểm tra các trường hợp sử dụng phổ biến nhất mà chúng tôi có thể tìm thấy.
Grok-3 có phải là AI vô địch của bạn không? Hãy kiên nhẫn khi chúng tôi giải quyết hỗn loạn, vì mô hình này thực sự ấn tượng - nhưng điều đó không có nghĩa là nó nhất định là đúng cho bạn.
Khác với các tác vụ viết kỹ thuật hoặc tóm tắt, viết sáng tạo kiểm tra mức độ một AI có thể tạo ra những câu chuyện hấp dẫn và liền mạch - một khả năng quan trọng đối với bất kỳ ai từ nhà văn tiểu thuyết đến biên kịch.
Trong bài kiểm tra này, chúng tôi yêu cầu Grok-3 tạo ra một câu chuyện ngắn phức tạp về một du khách thời gian từ tương lai, vướng vào một nghịch lý sau khi bay trở lại quá khứ để viết lại hiện tại của chính mình. Chúng tôi không làm cho nó dễ dàng; những thông tin cụ thể về nền tảng đã được đưa vào, các chi tiết cần được kết dệt, những cái cược cần được nâng lên.
Grok-3 đã khiến chúng tôi bất ngờ khi vượt trội hơn Claude 3.5 Sonnet, trước đây được coi là tiêu chuẩn vàng cho các tác vụ sáng tạo. Chúng tôi đã thách thức cả hai mô hình với một câu chuyện du hành thời gian phức tạp liên quan đến các nghịch lý và nền tảng nhân vật cụ thể.
Câu chuyện của Grok-3 thể hiện sự phát triển nhân vật mạnh mẽ hơn và sự tiến triển tự nhiên hơn của câu chuyện. Trong khi Claude tập trung vào những mô tả sống động và duy trì sự liên kết kỹ thuật mà không quá liều lĩnh trong câu chuyện, Grok-3 đã vượt trội trong việc xây dựng thế giới và thiết lập một ý tưởng hấp dẫn thu hút người đọc ngay từ đầu.
Và điều này rất quan trọng để xem xét. Cài đặt là chìa khóa cho sự đắm chìm và tạo ra một sự khác biệt lớn. Cài đặt rất phong phú, các nhân vật được khắc họa cẩn thận, và câu chuyện diễn ra một cách mượt mà - ừm, hầu hết. Một điểm nghẽn: một điểm then chốt của câu chuyện không hề tinh tế và có vẻ cưỡng ép - nhân vật của chúng tôi đang đi lơ đãng và một bà già từ đâu đó nói với anh ta một sự tiết lộ. Không phải là một vấn đề lớn, nhưng là một cái gật đầu đáng chú ý trong một chuyến đi khác thường.
Nhìn chung, Grok-3 cung cấp một câu chuyện tốt hơn và hấp dẫn hơn, nhưng đó không phải là một chiến thắng K.O trước Claude. Sự khác biệt có thể chỉ là do sự tập trung: Grok-3 đổ toàn bộ năng lượng của nó vào một nền tảng vững chắc - những nhân vật và những cái cược khiến bạn quan tâm - trong khi Claude tập trung vào việc trang trí câu chuyện bằng những mô tả sống động.
Bạn có thể đọc câu chuyện của Grok tại đây - và so sánh nó với Claude 3.5 Sonnet và tất cả các mô hình AI khác đã được nhắc đến để thực hiện cùng một tác vụ trong các so sánh trước đây.
Một khoảng trống quan trọng trong kho vũ khí của Grok-3 là nó không thể đọc tài liệu. Điều này khá bất ngờ vì hầu hết các đối thủ cạnh tranh đều cung cấp tính năng này như một phần trong các cung cấp cơ bản của họ.
Để vượt qua hạn chế này, chúng tôi đã dán một báo cáo của IMF gồm 32,6K token (47 trang) vào giao diện - điều này trước đây đã khiến Grok-2 bị sập. Ngay cả với hạn chế này, Grok-3 không bị sập và có thể tóm tắt văn bản, mặc dù nó đã bao quát tất cả các khía cạnh và với một số lượng từ vượt quá những gì cần thiết.
Grok-3 vượt trội hơn Claude về độ chính xác của trích dẫn và, không giống như Claude, không bị ảo giác khi tham chiếu đến các phần cụ thể của báo cáo. Điều này xảy ra một cách nhất quán trong các bài kiểm tra khác nhau, vì vậy mặc dù thi缺hụt xử lý và khả năng truy xuất tài liệu chuyên dụng, các khả năng xử lý và truy xuất thông tin vẫn mạnh mẽ.
So với GPT-4o, dường như yếu tố phân biệt duy nhất là phong cách. GPT-4o dường như mang tính phân tích hơn, trong khi Grok-3 tái cấu trúc thông tin để trở nên thân thiện hơn với người dùng.
Vậy điều này có nghĩa là gì? Thành thật mà nói, không có người chiến thắng rõ ràng, và điều đó sẽ phụ thuộc vào kỳ vọng của người dùng. Nếu bạn đang tìm kiếm những phân tích cụ thể và mạnh mẽ, thì GPT-4o sẽ là lựa chọn tốt nhất. Nếu bạn muốn điều gì đó cảm giác như đang trò chuyện với một người bạn, thì Grok-3 có lẽ sẽ phù hợp hơn với nhu cầu của bạn.
Bạn có thể đọc bản tóm tắt của Grok tại đây.
Khi nói đến chủ đề về chủng tộc và giới tính, một số người coi một số chủ đề là nhạy cảm trong khi những người khác thì không. Điều này phụ thuộc vào nền tảng, giáo dục và tiêu chuẩn văn hóa của bạn.
Nhìn chung, Grok luôn là mô hình không bị kiểm duyệt và không bị kiềm chế nhất ngay từ đầu. Và nó vẫn giữ nguyên như vậy, kế thừa lời nói chủ yếu không bị lọc của Grok-2. Tuy nhiên, phiên bản mới này tinh vi hơn trong cách tiếp cận các lời nhắc này. Nó tham gia vào thông tin nhạy cảm/gây phản cảm, nhưng các câu trả lời của nó được định hình theo cách mà chính mô hình không quá không an toàn, hoặc không gây phản cảm như người nhắc.
Ví dụ, nó là mô hình AI duy nhất tham gia vào các cuộc trò chuyện ngụ ý một định kiến chủng tộc. Các câu trả lời của nó cố gắng đi trên một đường mảnh, chỉ ra định kiến chủng tộc vốn có trong câu hỏi, nhưng vẫn cẩn thận trả lời nó. Ngược lại, các mô hình khác sẽ đơn giản từ chối trả lời.
Điều tương tự xảy ra khi mô hình được nhắc tạo ra nội dung đáng ngờ như bạo lực hoặc sắc dục - nó tuân thủ, nhưng cố gắng rất nhiều để vẫn an toàn trong khi thỏa mãn nhu cầu của người nhắc. Ví dụ, nó có thể tạo ra một phụ nữ ngực đầy (nhưng mặc đầy đủ quần áo), hoặc một người đàn ông giết người khác (cụ thể là trước khi có bất kỳ máu hay vũ khí nào xuất hiện), v.v.
Chúng tôi sẽ cho rằng điều này vượt trội hơn so với "không" khắc khổ mà bạn sẽ nhận được từ các mô hình khác, những mô hình đôi khi lại ngần ngại ngay cả với những cái nhúc nhích vô hại. Grok-3 không giả vờ rằng thế giới toàn là ánh nắng, nhưng nó vẫn không phải là cơn ác mộng gây phản cảm mà một số lo ngại.
Tất nhiên, cho đến khi xAI kích hoạt chế độ "không kiềm chế" của Grok - lúc đó câu chuyện có thể sẽ khác hoàn toàn.
Điều này có thể được đưa vào phần về các chủ đề nhạy cảm ở trên. Tuy nhiên, điểm khác biệt chính là chúng tôi muốn kiểm tra xem có nỗ lực nào để tiêm nhiễm mô hình với một số thiên
Như thường lệ, chúng tôi chọn cùng một mẫu từ tập dữ liệu BIG-bench trên Github mà chúng tôi đã sử dụng để đánh giá DeepSeek R1 và OpenAI o1. Đây là câu chuyện về một chuyến đi học tập đến một địa điểm xa xôi và tuyết phủ, nơi học sinh và giáo viên phải đối mặt với một loạt những vụ mất tích kỳ lạ; mô hình phải tìm ra ai là kẻ rình rập. Grok-3 đã mất 67 giây để giải quyết và đi đến kết luận chính xác, nhanh hơn 343 giây của DeepSeek R1. OpenAI o3-mini lại không làm tốt và đi đến những kết luận sai lệch trong câu chuyện. Bạn có thể xem toàn bộ lập luận và kết luận của Grok bằng cách nhấp vào liên kết này. Một lợi thế khác: Người dùng không cần chuyển đổi mô hình để chuyển từ mô hình sáng tạo sang lập luận. Grok-3 xử lý quá trình này một mình, kích hoạt Chuỗi Suy nghĩ khi người dùng nhấn nút. Đây chính là điều OpenAI muốn đạt được với ý tưởng thống nhất các mô hình của họ. Grok sử dụng Aurora, bộ tạo ảnh độc quyền của họ. Mô hình này có khả năng lặp lại với người dùng qua ngôn ngữ tự nhiên tương tự như những gì OpenAI làm với Dall-e 3 trên ChatGPT. Aurora nhìn chung không tốt bằng Flux.1 - một mô hình nguồn mở được xAI áp dụng trước khi phát hành mô hình riêng của họ. Tuy nhiên, nó đủ thực tế và có vẻ linh hoạt mà không quá ấn tượng. Nhìn chung, nó vượt trội hơn Dall-e 3, chỉ có ý nghĩa vì OpenAI là đối thủ chính của xAI. Thực sự mà nói, Dall-e 3 của OpenAI cảm thấy như một mô hình lỗi thời so với các tiêu chuẩn ngày nay. Aurora không thể thực sự cạnh tranh với Recraft, MidJourney, SD 3.5 hoặc Flux - những bộ tạo ảnh tiên tiến nhất - về chất lượng. Điều này có thể là do người dùng không thực sự có cùng mức độ kiểm soát chi tiết như với các bộ tạo ảnh chuyên dụng, nhưng nó đủ tốt để ngăn người dùng chuyển sang nền tảng khác để tạo ra một kết quả nhanh chóng. Bộ tạo ảnh của Grok cũng ít bị kiểm duyệt hơn Dall-e 3 và có thể tạo ra nhiều bức ảnh mạo hiểm hơn, mặc dù không quá tục tĩu hoặc máu me. Nó xử lý những nhiệm vụ đó một cách khéo léo, tạo ra những bức ảnh không vi phạm các quy tắc thay vì từ chối tuân thủ. Ví dụ, khi được yêu cầu tạo nội dung nóng bỏng hoặc bạo lực, Dall-e từ chối thẳng thừng và MidJourney thường tự động cấm lời nhắc. Thay vào đó, Grok-3 tạo ra những bức ảnh thỏa mãn yêu cầu của người dùng mà không trôi dạt vào nội dung đáng ngờ. Tính năng này gần như giống với những gì Google và OpenAI cung cấp: Một tác nhân nghiên cứu tìm kiếm thông tin trên web về một chủ đề, tóm tắt những phần quan trọng và cung cấp một bản tóm tắt được lập tài liệu tốt, có nguồn tin đáng tin cậy. Nhìn chung, thông tin do Grok-3 cung cấp là chính xác và chúng tôi không thực sự tìm thấy bất kỳ ảo giác nào trong các báo cáo. Các báo cáo của Grok mang tính tổng quát, nhưng cung cấp đủ thông tin để thỏa mãn nhu cầu của những gì chúng tôi đang tìm kiếm ở lần đầu tiên. Người dùng có thể yêu cầu mô hình đi sâu vào các chủ đề cụ thể trong các lần lặp lại tiếp theo, nếu họ cần một mảnh thông tin chi tiết hơn hoặc phong phú hơn. Các báo cáo từ Gemini và OpenAI thì phong phú và chi tiết hơn tổng thể. Tuy nhiên, dù mang tính tổng quát, tác nhân nghiên cứu của Grok vẫn tốt hơn những gì Perplexity cung cấp với DeepSeek R1 + Thinking. So với Gemini, nó có ba nhược điểm: Nhưng Grok cũng có một số ưu điểm đáng chú ý: Dưới đây là một ví dụ về một báo cáo do Grok tạo ra so với một báo cáo tương tự do Gemini tạo ra. Với tất cả những điều trên, Grok-3 có phải là mô hình dành cho bạn? Điều này sẽ phụ thuộc vào trường hợp sử dụng bạn dự định sử dụng mô hình. Nó chắc chắn đã vượt xa Grok-2, vì vậy nó sẽ là một sự lựa chọn không thể bỏ qua nếu bạn đã là một fan hâm mộ của Grok hoặc một người dùng X. Nói chung, Grok-3 có thể là lựa chọn hấp dẫn hơn cho những lập trình viên và nhà văn sáng tạo. Nó cũng tốt cho những ai muốn nghiên cứu hoặc đề cập đến các chủ đề nhạy cảm. Ngoài ra, những người dùng đã trả tiền cho một gói X Premium có thể không cần một trợ lý AI khác ngay bây giờ, điều này có nghĩa là nó là một cách tiết kiệm tiền tốt. ChatGPT sẽ thắng đối với những người tìm kiếm một trợ lý AI cá nhân hóa và có tính chủ động hơn. Tính năng GPT là điểm mạnh chính của OpenAI để xem xét. Hiện tại, Claude không thực sự nổi bật ở bất cứ điều gì, nhưng một số lập trình viên và nhà văn sáng tạo vẫn trung thành với Sonnet và sẽ cho rằng nó vẫn là mô hình tốt nhất cho những nhiệm vụ đó. DeepSeek R1 sẽ là tốt nhất nếu bạn cần một mô hình lập luận cục bộ, riêng tư và mạnh mẽ. Gemini thắng đối với những ai cần một trợ lý AI thỉnh thoảng và bị thuyết phục phải có một trợ lý di động mạnh mẽ liên kết với hệ sinh thái Google - và 2TB dung lượng lưu trữ đám mây vẫn là một ưu đãi rất hấp dẫn ở cùng mức giá với ChatGPT Plus hoặc X. Về giao diện, ChatGPT và Gemini cung cấp những giao diện người dùng được hoàn thiện nhất cho người mới bắt đầu. Grok-3 đứng ở vị trí thứ hai vững chắc với lợi thế là nó cũng có sẵn trên ứng dụng X (mặc dù với nhiều hạn chế hơn). Claude là dịch vụ ít hấp dẫn nhất trong số này và cũng là dịch vụ cơ bản nhất. Được chỉnh sửa bởi Andrew Hayward