xAI của Musk ra mắt Grok-3: Mạnh mẽ hơn, nhưng liệu có tạo nên đột phá mới?

02-18

Bài viết này được dịch máy

Xem bản gốc

Grok-3, được phát triển bởi xAI của Elon Musk, đã được ra mắt vào thứ Hai, với công ty đưa ra những tuyên bố táo bạo về khả năng của nó trong khi trình diễn một cơ sở hạ tầng máy tính khổng lồ cho thấy những tham vọng còn lớn hơn.

Bản thông báo tập trung nhiều vào sức mạnh tính toán thô, hiệu suất chuẩn, và các tính năng sắp tới, mặc dù nhiều trong số các bài trình diễn thực tế có vẻ như là những bản sao của những gì các công ty AI khác đã đạt được.

Ngôi sao của phần đầu của buổi trình diễn không phải là Bit thông minh nhân tạo (AI) chính nó, mà là "Colossus", một cụm máy tính khổng lồ gồm 200.000 GPU điều khiển việc đào tạo Grok-3.

Hệ thống này được xây dựng thành hai giai đoạn: 122 ngày đào tạo đồng bộ trên 100.000 GPU, tiếp theo là 92 ngày mở rộng lên toàn bộ 200.000 GPU. Theo các nhà phát triển xAI, việc xây dựng cơ sở hạ tầng này đã khó khăn hơn so với việc phát triển mô hình AI.

Công ty đã có kế hoạch cho một cụm máy tính mạnh hơn nữa, với Musk nói rằng họ đang nhắm đến năng lực gấp 5 lần so với hiện tại, thực sự xây dựng những gì sẽ là cụm GPU mạnh nhất trên thế giới.

Về hiệu suất, Grok-3 cho thấy kết quả ấn tượng trên các Số lượng giao dịch trên mỗi giây (TPS) chuẩn của AI. Mô hình cơ bản (mô hình thông thường không có Chuỗi Suy nghĩ và lý luận được nhúng) liên tục dẫn đầu các bảng xếp hạng trong các bài kiểm tra toán học (AIME), khoa học (GPOA) và lập trình (LCB).

Nó cũng có vẻ rất hứa hẹn trong các bài kiểm tra mù.

xAI xác nhận rằng mô hình bí ẩn có mã là "Chocolate" thực ra là một phiên bản thử nghiệm sớm của Grok-3 đã được tải lên LLM Arena.

Trong những bài kiểm tra đó, nó đạt được Cao nhất mọi thời đại (ATH) tốt nhất trong số tất cả các Mô hình Ngôn ngữ Lớn (LLM), có nghĩa là người dùng thích các câu trả lời của nó hơn so với các thế hệ được cung cấp bởi tất cả các mô hình AI khác trong cuộc cạnh tranh trực tiếp mà không biết mô hình nào họ đang đánh giá.

Đây có lẽ là cách đo lường chất lượng chính xác nhất mà không cho các mô hình bất kỳ cơ hội nào để gian lận trên các Số lượng giao dịch trên mỗi giây (TPS) bằng cách đào tạo các Bit thông minh nhân tạo (AI) của họ trên những tập dữ liệu đó. Số lượng giao dịch trên mỗi giây (TPS) này dựa hoàn toàn trên sự ưa thích và lựa chọn mù quáng của hàng nghìn người dùng ẩn danh.

Một phiên bản "Reasoning Beta" chuyên biệt của Grok-3, sử dụng xử lý chuỗi suy nghĩ nội bộ và tính toán bổ sung trong quá trình kiểm tra, đẩy điểm số toán học lên cao hơn nữa - đạt 93% trên Số lượng giao dịch trên mỗi giây (TPS) AIME 2025 so với các mô hình có hiệu suất tốt nhất khác xếp hạng dưới 87%.

Đáng chú ý, một phiên bản nhỏ hơn được gọi là Grok-3 Mini Reasoning Beta đôi khi lại vượt trội hơn so với người anh em lớn hơn của nó, nhờ vào thời gian đào tạo dài hơn.

Nói cách khác, Grok-3 đầy đủ vẫn còn nhiều dư địa để cải thiện một khi nó nhận được thời gian đào tạo tương đương, điều này có vẻ hứa hẹn khi xét đến số lượng tham số lớn hơn của nó.

Nhưng khi xAI chuyển sang trình diễn khả năng của Grok-3 trực tiếp, bài thuyết trình có vẻ như một trò chơi bắt kịp hơn là sự đổi mới. Nhóm đã trình diễn mô hình giải quyết các vấn đề vật lý và viết mã trò chơi từ đầu - những thành tựu ấn tượng mà ChatGPT, Claude và Gemini của Google đã thành thạo từ lâu.

Họ cũng giới thiệu DeepSearch, một tác nhân nghiên cứu mà, giống như các công cụ tương tự từ OpenAI và Google, tìm kiếm trên web và tạo ra các báo cáo chi tiết về các chủ đề được đưa ra.

Các thuê bao X Premium Plus sẽ được truy cập ngay lập tức vào Grok-3, nhưng phiên bản mạnh nhất và các phiên bản cập nhật sẽ thường được lưu trữ trong một ứng dụng độc lập hoặc trên Grok.com.

Tương tác bằng giọng nói, tương tự như "Chế độ Giọng nói Nâng cao" của OpenAI, sẽ đến trong những tuần tới, với Musk nhấn mạnh rằng đây không phải là văn bản-sang-giọng nói đơn giản mà là một mô hình giọng nói Bit thông minh nhân tạo (AI) thực sự có khả năng phát âm tự nhiên và biểu cảm.

Các nhà phát triển sẽ được truy cập API trong những tuần tới, cùng với khả năng chuyển đổi âm thanh, khiến Grok-3 trở thành một công cụ mạnh mẽ cho các ứng dụng AI của bên thứ ba.

Ngay sau khi trình diễn một ví dụ về một trò chơi Tetris được tạo ra bởi Grok, xAI cũng tiết lộ kế hoạch về một studio game AI sẽ cho phép các nhà phát triển xây dựng các trò chơi được điều khiển bởi Grok-3.

Hiện tại, mô hình đang được triển khai từ từ. Tại thời điểm viết bài, Decrypt vẫn chưa nhận được quyền truy cập vào mô hình, nhưng một số người hâm mộ đã thử nó và cho đến nay rất hài lòng với kết quả.

Nhà khoa học máy tính Lex Friedman, một trong những giọng nói lớn nhất trong lĩnh vực AI, đã khen ngợi khả năng của Grok-3.

Những người khác so sánh nó với các đối thủ hàng đầu trên thị trường.

"Grok 3 + Thinking cảm thấy ở đâu đó trong khu vực Thực tế tăng cường (AR) của các mô hình mạnh nhất của OpenAI (o1-pro, $200/tháng), và hơi tốt hơn so với DeepSeek-R1 và Gemini 2.0 Flash Thinking," Andrej Karpathy, cựu đồng sáng lập của OpenAI, đã viết trong một bài đăng rộng lớn trên X. "Cho đến nay, xin chúc mừng đội ngũ xAI, họ rõ ràng có tốc độ và đà rất lớn"

Người dùng X Penny2x đã chia sẻ một trò chơi được xây dựng từ đầu bằng Grok-3 - một trò chơi nền tảng 2d tương tự như Mario Bros.

Họ có vẻ ấn tượng với khả năng của Grok trong việc hiểu các hướng dẫn và cải thiện nhiều lần lặp lại.

"Tôi chỉ cần yêu cầu các điều chỉnh, và nó cứ nhả ra trò chơi trong một tệp duy nhất mà tôi có thể đặt trên màn hình nền và chạy." anh ấy đã viết trong một bài đăng trên X. "Điều này thật không thể tin được. Chúng ta đang sống trong tương lai. Mọi người đều là nhà phát triển bây giờ."

Trò chơi có sẵn để thử nghiệm tại Thank Doge.

Công ty cũng xác nhận kế hoạch mã nguồn mở Grok-2 một khi Grok-3 đã hoàn toàn chín muồi và hoạt động chính xác, dự kiến sẽ xảy ra trong vài tháng tới.

xAI trước đây đã mã nguồn mở các mô hình của mình sau Grok-2, tiếp tục xu hướng phát hành các phiên bản cũ hơn để thúc đẩy sự đổi mới - mặc dù Grok-2 vẫn thua kém các mô hình hàng đầu.

Hiện tại, Grok-3 có vẻ thành thạo trong việc khớp với những gì các mô hình AI tốt nhất đã có thể làm.

Bài kiểm tra thực sự sẽ đến khi xAI triển khai các tính năng giọng nói, công cụ game và quyền truy cập API được hứa hẹn trong những tuần tới. Bây giờ, bóng đã ở sân OpenAI, sẽ sớm ra mắt GPT-4.5.

Được chỉnh sửa bởi Sebastian Sinclair

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan