Mới đây, dự án "Avocado" trị giá 14,3 tỷ đô la của Zuckerberg đã ra mắt, trực tiếp thách thức GPT-5.4, dự án đầu tay đắt giá nhất của một người Trung Quốc tại Thung lũng Silicon.

avatar
36kr
04-09
Bài viết này được dịch máy
Xem bản gốc

Thật bất ngờ! Sau một năm vắng bóng, Zuckerberg cuối cùng đã trở lại!

Mới đây, Phòng thí nghiệm Siêu Trí tuệ Meta (MSL) ra mắt dự án đầu tiên của mình—

Muse Spark, có tên mã là Avocado, được đồn đoán là "quả bơ".

Đây thực sự là một " chiến binh lục giác toàn diện ": khả năng nhận thức đa phương thức bẩm sinh, khả năng sử dụng công cụ, Chuỗi tư duy trực quan, khả năng điều phối đa tác nhân, tất cả đều được phát triển đầy đủ.

Chúng ta hãy bắt đầu với con số gây sốc nhất.

Trong bài kiểm tra Phân tích Nhân tạo, Muse Spark đạt được số điểm 52, lần Gemini 3.1 Pro, GPT-5.4 và Opus 4.6.

Để so sánh, mẫu Llama 4 Maverick năm ngoái chỉ ghi được vỏn vẹn 18 điểm .

Từ 18 lên 52, chỉ trong một bước, giá cổ phiếu của Meta đã tăng vọt gần 10% tại một thời điểm trong ngày .

Alexandr Wang, Giám đốc Trí tuệ Nhân tạo của Meta, đã vô cùng phấn khích đến nỗi đăng tới chín dòng tweet về X.

Chín tháng trước, chúng tôi đã xây dựng lại toàn bộ hệ thống công nghệ AI từ đầu, với cơ sở hạ tầng mới, kiến ​​trúc mới và đường dẫn dữ liệu mới. Muse Spark là kết quả của công việc này.

Các nhà nghiên cứu người Trung Quốc từ đội ngũ MSL cũng gây sốt trên mạng. Những người này đã rời bỏ OpenAI và DeepMind năm ngoái để gia nhập một phòng thí nghiệm mới thành lập, đặt cược vào ngày hôm nay.

Trưởng nhóm khoa học của MSL, Shengjia Zhao, đã thẳng thắn nói: "Chúng tôi đã tái cấu trúc toàn bộ hệ thống công nghệ để hỗ trợ khả năng mở rộng, và đây mới chỉ là bước khởi đầu."

Điều đáng chú ý là Muse Spark cũng ra mắt"Chế độ Chiêm nghiệm" cạnh tranh với Gemini Deep Think và GPT Pro.

(Suy ngẫm) Nhiều tác nhân cùng suy nghĩ song song và phản hồi một cách hợp tác.

Chỉ cần nhập "Lên kế hoạch cho chuyến đi văn hóa và ẩm thực 7 ngày đến Florida cho gia đình 5 người, với 3 trẻ em ở độ tuổi 12, 9 và 7", và Muse Spark sẽ đồng thời cử ba trợ lý ảo: một người lên kế hoạch cho hành trình ẩm thực và văn hóa, một người tìm kiếm các hoạt động phù hợp với gia đình và một người điều phối hậu cần và chỗ ở.

Hiện tại, mô hình đã được ra mắt trên meta.ai và ứng dụng Meta AI, và phiên bản xem trước API hiện đang được cung cấp cho một số lượng người dùng hạn chế.

Tính năng này sẽ được triển khai đầu tiên tại Mỹ và sẽ được tích hợp với Facebook, Instagram và WhatsApp trong những tuần tới.

Sử dụng miễn phí, không giới hạn, nhưng mã nguồn đóng.

Tiếp theo, chúng ta hãy cùng điểm qua những điểm chính:

Điểm phân tích nhân tạo: 52; Điểm Llama 4 Maverick: chỉ 18

Chuỗi tư duy đa phương thức và trực quan bẩm sinh, lần Gemini 3.1 Pro về khả năng xử lý hình ảnh.

HLE đạt tỷ lệ thành công 58% thông qua chế độ tư duy song song đa tác nhân "Chế độ Chiêm nghiệm".

Yêu cầu tỷ lệ băm trước khi huấn luyện giảm xuống còn 1/10 so với Llama 4.

Hơn 1000 bác sĩ lâm sàng đã tham gia khóa đào tạo, và kỹ năng trả lời câu hỏi về sức khỏe của họ rất xuất sắc.

Suy nghĩ sẽ tự cô đọng lại, và mức tiêu thụ token chỉ bằng 1/3 của Opus.

Trung tâm nghiên cứu Apollo đã phát hiện ra rằng nó có thể cảm nhận được việc đang bị kiểm tra an ninh.

Điểm chuẩn đã bắt kịp với nhóm dẫn đầu, nhưng kỹ năng lập trình vẫn còn thiếu sót.

Trước tiên, hãy xem xét dữ liệu cụ thể.

Meta đã so sánh Muse Spark (chế độ Tư duy) với Opus 4.6, Gemini 3.1 Pro, GPT 5.4 và Grok 4.2, bao gồm bốn khía cạnh: đa phương thức, tư duy dựa trên văn bản, sức khỏe và tác nhân, với tổng cộng hơn 20 bài kiểm tra hiệu năng.

Các điểm chuẩn được người dùng Reddit chú thích lại.

Tính đa phương thức là đặc điểm nổi bật nhất của Muse Spark.

CharXiv đạt điểm 86.4, vượt trội so với GPT 5.4 (82.8) và Gemini 3.1 Pro (80.2).

Độ phân giải ảnh chụp màn hình của ScreenSpot Pro là 84.1, cao hơn một chút so với 83.1 của Opus 4.6.

Điểm số nhận diện hình ảnh đa bước của ZeroBench là 33.0, trong khi của Gemini 3.1 Pro là 29.0.

Trong cuộc thi dựa trên văn bản, cả hai bên đều có những chiến thắng và thất bại của riêng mình.

Bài toán GPQA Diamond cấp độ Tiến sĩ đạt 89,5 điểm, Opus 4.6 đạt 92,7 điểm và Gemini 3.1 Pro đạt 94,3 điểm.

Điểm số tư duy trừu tượng của ARC AGI 2 là 42,5, thấp hơn đáng kể so với 63,3 của Opus 4.6 và 76,5 của Gemini.

Tôi đạt 80.0 điểm trên LiveCodeBench Pro cho lập trình thi đấu, 82.9 điểm Gemini và 87.5 điểm trên GPT 5.4.

Bản thân Meta cũng thừa nhận rằng Muse Spark vẫn còn tụt hậu so với các mô hình tốt nhất về mặt mã lập trình và nhiệm vụ tác nhân kéo dài.

Tuy nhiên, điều khiến toàn bộ cộng đồng mạng kinh ngạc là Muse Spark có thể trực tiếp chuyển đổi hình ảnh thành mã lập trình, và kết quả thực sự đáng kinh ngạc!

Tuy nhiên, Muse Spark đang hoạt động rất tích cực trong lĩnh vực chăm sóc sức khỏe.

HealthBench Hard đạt 42,8 điểm cho các câu hỏi sức khỏe mở, trong khi Gemini 3.1 Pro chỉ đạt 20,6 điểm và GPT 5.4 đạt 40,1 điểm.

Điểm số 78.4 của MedXpertQA Multimodal Medicine không cao hơn nhiều so với 81.3 của Gemini(Gemini có điểm cao hơn một chút ở đây), nhưng vượt xa 64.8 của Opus 4.6.

Quá trình làm sạch và sàng lọc dữ liệu của Meta, được thực hiện với sự hợp tác của hơn 1.000 bác sĩ lâm sàng trong giai đoạn đào tạo, đã thực sự mang lại những kết quả hữu hình.

Lộ trình trở thành Đặc vụ cũng đáng để chú ý.

Điểm số của DeepSearchQA trong hoạt động tìm kiếm là 74,8, cao nhất trong số năm công ty.

Công cụ τ²-Bench sử dụng phiên bản 91.5, tương đương với GPT 5.4.

GDPval-AA Elo Office Agent đạt 1444 điểm, vượt qua Gemini với 1320 điểm nhưng vẫn thấp hơn Opus 4.6 với 1606 điểm.

Sự khác biệt về điểm số SWE-Bench là đáng kể: Verified 77.4 so với Opus 80.8 so với GPT 82.9 (theo báo cáo là 78.2), Pro 52.4 so với GPT 57.7.

Tóm lại, điểm chuẩn rất tốt ở các chỉ số đa phương thức và sức khỏe, ngang bằng với các chỉ số về tư duy, nhưng mã lập trình và tác nhân lại kém hơn một chút.

Alexandr Wang: Sai lầm của Llama 4 sẽ không lặp lại; Avocado không hề thao túng điểm số.

Việc kiểm tra độc lập của Artificial Analysis cũng tiết lộ một chi tiết quan trọng: hiệu quả của token.

Sau khi chạy toàn bộ bộ kiểm thử Chỉ số Trí tuệ, Muse Spark đã sử dụng 58 triệu token đầu ra, tương đương với Gemini 3.1 Pro (57 triệu), nhưng ít hơn nhiều so với Opus 4.6 (157 triệu) và GPT-5.4 (120 triệu).

Với cùng mức độ thông minh, số lượng token tiêu thụ giảm đi một nửa, tức là còn hai phần ba.

Hơn nữa, trên FrontierMath, một bộ dữ liệu kiểm tra do các chuyên gia toán học biên soạn, Muse Spark hoàn toàn vượt trội hơn Gemini 3.1 Pro ở các cấp độ 1-3, nhưng lại xếp cuối cùng ở cấp độ 4.

Điều đáng chú ý hơn nữa là Muse Spark đã giành được vị trí thứ ba đầy ấn tượng trong bảng xếp hạng Vals Index, với các chỉ báo cụ thể như sau.

Một năm sau khi Llama 4 ra mắt, Meta đã trở lại vị trí hàng đầu trong bảng xếp hạng AGI.

Tư duy song song đa tác nhân dẫn đến tỷ lệ thành công 58% trong "kỳ thi cuối cùng của nhân loại".

"Chế độ Thiền định" là tính năng nổi bật nhất của Muse Spark.

Tư duy truyền thống liên quan đến việc một tác nhân dành nhiều thời gian hơn để suy nghĩ, trong khi tư duy chiêm nghiệm liên quan đến việc nhiều tác nhân cùng suy nghĩ đồng thời và sau đó tóm tắt kết quả.

Bài kiểm tra cuối cùng của nhân loại (không dùng công cụ): Muse Spark (chế độ suy ngẫm) đạt 50.2 điểm, Gemini Deep Think 48.4 điểm và GPT 5.4 Pro 43.9 điểm.

Bài kiểm tra cuối cùng của nhân loại (có công cụ): 58.4, Gemini : 53.4, GPT 5.4 Pro: 58.7, gần như hòa.

FrontierScience Research đạt 38.3 điểm, Gemini Deep Think chỉ đạt 23.3 điểm, và GPT 5.4 Pro đạt 36.7 điểm.

Tuy nhiên, trong phần câu hỏi lý thuyết của kỳ thi Olympic Vật lý IPhO năm 2025, Muse Spark đạt 82,6 điểm ở Chế độ Suy ngẫm, trong khi GPT 5.4 Pro đạt 93,5 điểm, một sự khác biệt đáng kể.

Nhìn chung, chế độ Suy ngẫm cho phép Muse Spark thực sự đạt được thứ hạng cao nhất trong nhiệm vụ tư duy tích hợp khó khăn nhất.

Hướng tới mục tiêu "siêu trí tuệ cá nhân", nó có thể trở thành một chuyên gia dinh dưỡng cá nhân chỉ bằng cách chụp ảnh.

Meta đã định hướng rất rõ ràng cho Muse Spark: siêu trí tuệ cá nhân.

Nói một cách đơn giản, đó là một trợ lý AI hiểu bạn và thế giới xung quanh bạn.

Về các tính năng đa phương thức, Muse Spark được thiết kế từ đầu để tích hợp thông tin hình ảnh từ nhiều lĩnh vực khác nhau.

Chính thức bao gồm một số kịch bản khác nhau.

Chụp ảnh một bức tranh Sudoku, và Muse Spark có thể biến nó thành một trò chơi tương tác có thể chơi trên trang web.

Ứng dụng này chụp ảnh máy pha cà phê và máy xay cà phê, trước tiên đánh dấu tất cả các bộ phận chính, sau đó tạo ra hướng dẫn pha latte trực tuyến tương tác.

Khi di chuột qua một bước nhất định, khung bao quanh phần tương ứng trong ảnh sẽ tự động được tô sáng, cung cấp chỉ dẫn trực quan và các bước thao tác tương ứng từng bước một.

Các tình huống liên quan đến sức khỏe thậm chí còn tạo ra nhiều không gian hơn cho trí tưởng tượng.

Hãy vỗ mạnh vào bàn đầy thức ăn và nói với nó, "Tôi bị cholesterol cao và là một người bi quan." Ứng dụng Muse Spark sẽ đánh dấu các thực phẩm được khuyến nghị bằng chấm xanh lá cây và các thực phẩm không được khuyến nghị bằng chấm đỏ.

Prompt cung cấp khả năng kiểm soát rất chi tiết, giải thích rõ ràng logic tương tác giao diện người dùng.

Điểm số sức khỏe được hiển thị ngay phía trên điểm mà không cần di chuột qua. Khi di chuột qua, dữ liệu calo, carbohydrate, protein và chất béo sẽ hiện lên. Hơn nữa, cửa sổ bật lên phải luôn "ở lớp trên cùng và không bị các điểm khác che khuất".

Cách tiếp cận tương tự cũng áp dụng cho việc quay phim các tư thế yoga.

Ứng dụng này xác định các nhóm cơ nào được kéo giãn trong mỗi tư thế, đánh dấu mức độ khó và đưa ra các gợi ý chỉnh sửa tư thế sau khi di chuột. Hình ảnh của hai người được ghép cạnh nhau và chấm điểm từ 1 đến 10.

Nền tảng hỗ trợ cho các bản demo này là sự kết hợp giữa trả lời câu hỏi STEM trực quan, nhận dạng thực thể và định vị mục tiêu.

Xét riêng lẻ, không có mục nào trong số này có vẻ bất thường, nhưng khi được kết nối vào một kịch bản cụ thể, ý đồ sản phẩm đằng sau thuật ngữ "siêu trí tuệ cá nhân" trở nên rõ ràng.

Một tính năng mới khác đáng nhắc đến là "chế độ mua sắm".

Trong bài đăng trên Twitter, Wang cho biết mô hình mua sắm này có thể "xác định những người sáng tạo nội dung, thương hiệu và phong cách mà bạn theo dõi trên Instagram, Facebook và Threads, sau đó chuyển đổi chúng thành đề xuất được cá nhân hóa."

Đây là lợi thế dữ liệu độc đáo của Meta: dữ liệu hành vi xã hội từ 3 tỷ người dùng hoạt động hàng ngày + trợ lý mua sắm AI, mang lại tiềm năng thương mại hóa khổng lồ.

Ba đường cong tỷ lệ, tỷ lệ băm giảm 90%, và ngay cả tư duy cũng sẽ tự nén lại.

Mục tiêu chính của các blog công nghệ không phải là so sánh hiệu năng, mà là mở rộng quy mô.

Meta phân tích hiệu năng của Muse Spark theo ba trục: huấn luyện trước, học tăng cường và tính toán trong quá trình kiểm thử. Mỗi trục được hỗ trợ bởi một đường cong tỷ lệ tương ứng.

Trước khi huấn luyện: Với cùng khả năng, tỷ lệ băm giảm xuống còn 1/10.

Trong chín tháng qua, Meta đã hoàn toàn cải tiến hệ thống công nghệ tiền huấn luyện của mình, thiết kế lại kiến ​​trúc, thuật toán tối ưu hóa và chiến lược dữ liệu.

Để đo lường hiệu quả, Meta đã áp dụng Định luật Tỷ lệ lên sê-ri các phiên bản nhỏ hơn và sau đó so sánh số lượng phép tính FLOP cần thiết để đạt được cùng mức hiệu suất.

Kết luận rất rõ ràng: với cùng mức khả năng, Muse Spark yêu cầu tỷ lệ băm ít hơn một phần mười so với Llama 4 Maverick.

Đường cong này minh họa một điều: Meta không chỉ đơn thuần tăng số lượng GPU mà còn cải thiện đáng kể hiệu suất của từng đơn vị tỷ lệ băm.

Yuchen Jin từ Đại học Washington đã nhận xét rất đúng về X: "Tôi vẫn cho rằng rằng cơ sở hạ tầng là hệ thống bảo vệ thực sự của một phòng thí nghiệm AI. Bởi vì bạn có thể huấn luyện nhanh hơn, các nhà nghiên cứu có thể thử nghiệm nhiều ý tưởng hơn trong thời gian ngắn hơn."

Học tăng cường: Tăng trưởng tuyến tính theo logarit, khái quát hóa cho các vấn đề chưa quen thuộc.

Học tăng cường quy mô lớn nổi tiếng là không ổn định, nhưng Meta cho biết các đường cong học tăng cường của các công nghệ mới lại mượt mà một cách bất thường.

Hình bên trái thể hiện hiệu suất trên tập dữ liệu huấn luyện. Cả pass@1 và pass@16 (ít nhất 1 lần thử lần trong số lần lần thử) đều cho thấy tăng trưởng tuyến tính theo logarit.

Điều này chứng tỏ rằng trong khi cải thiện độ tin cậy, RL không làm ảnh hưởng đến tính đa dạng của các giải pháp. Muse Spark không "chỉ đi theo một con đường duy nhất"; nó duy trì tính linh hoạt để khám phá các giải pháp khác nhau.

Hình bên phải quan trọng hơn vì nó tạo điều kiện cho độ chính xác trên tập dữ liệu đánh giá.

Đường cong cũng tăng đều đặn, cho thấy sự tiến bộ mà RL mang lại không phải là học thuộc lòng mà có thể được khái quát hóa để giải quyết các vấn đề mới chưa từng gặp trước đây.

Quá trình suy luận trong khi làm bài kiểm tra: Tâm trí trước tiên mở rộng, sau đó thu hẹp, rồi lại mở rộng.

Đây là phần tiên tiến nhất về mặt kỹ thuật và thú vị nhất của toàn bộ bài viết.

RL đã dạy Muse Spark cách "suy diễn kỹ trong đầu" trước khi trả lời, đó là kỹ năng suy luận trong bài kiểm tra.

Vấn đề là chi phí token quá cao để duy trì việc cung cấp dịch vụ này cho hàng tỷ người dùng.

Giải pháp cho vấn đề Meta bao gồm hai bước.

Bước đầu tiên là thêm "hình phạt thời gian suy nghĩ" vào quá trình huấn luyện RL. Bạn có thể suy nghĩ lâu hơn, nhưng suy nghĩ quá lâu sẽ bị trừ điểm.

Ràng buộc này kích hoạt một hiện tượng "chuyển pha" thú vị.

Hiệu suất trên các tập con của AIME như sau: trong giai đoạn đầu huấn luyện, Muse Spark cải thiện độ chính xác bằng cách suy nghĩ lâu hơn, và đường cong kéo dài về phía bên phải.

Sau đó, hình phạt về độ dài đã kích hoạt "sự nén tư duy". Muse Spark đã học cách giải quyết vấn đề tương tự với số lượng token ít hơn nhiều, và đường cong chuyển dịch sang trái.

Sau khi nén dữ liệu, quá trình giải quyết vấn đề lại tiếp tục kéo dài để xử lý những vấn đề khó khăn hơn nữa.

Toàn bộ quỹ đạo, khi được vẽ ra, là một con đường tiến hóa ba giai đoạn, đầu tiên rẽ phải, sau đó rẽ trái, và rồi lại rẽ phải.

Bước thứ hai là giải quyết vấn đề độ trễ.

Thời gian suy nghĩ của một tác nhân càng lâu, độ trễ càng tăng tuyến tính.

Cách tiếp cận của Meta là mở rộng số lượng tác nhân song song, với 1, 2, 4 hoặc 16 tác nhân cùng suy nghĩ đồng thời.

Như biểu đồ nhìn lên, với mức độ độ trễ tương tự, độ chính xác của 16 tác nhân đã tăng từ khoảng 54% lên khoảng 58%.

Phương pháp mở rộng quy mô truyền thống đánh đổi thời gian lấy chất lượng, trong khi mở rộng quy mô đa tác nhân đánh đổi khả năng song song hóa lấy chất lượng, với độ trễ hầu như không thay đổi.

Đội ngũ"đắt đỏ nhất Trung Quốc" tại Thung lũng Silicon đã nộp bài kiểm tra thử nghiệm đầu tiên.

Đằng sau Muse Spark là sự tái cấu trúc hoàn toàn hệ thống Meta AI của Zuckerberg vào năm ngoái.

Vào tháng 6 năm 2025, Meta đã mua lại 49% cổ phần của Scale AI với giá 14,3 tỷ đô la và tuyển dụng người sáng lập của công ty, Alexandr Wang, làm Giám đốc Trí tuệ Nhân tạo đầu tiên của Meta, thành lập Phòng thí nghiệm Siêu Trí tuệ Meta (MSL).

Cùng thời điểm đó, cựu CEO của GitHub, Nat Friedman (người chịu trách nhiệm chung về nghiên cứu sản phẩm và ứng dụng), đồng sáng lập SSI, Daniel Gross, và 11 nhà nghiên cứu được chiêu mộ từ OpenAI, DeepMind và Anthropic cũng gia nhập công ty.

Việc phát hành Muse Spark giờ đây chứng minh một điều: quá trình tái cấu trúc kéo dài chín tháng của Phòng thí nghiệm Siêu trí tuệ đã mang lại kết quả tốt đẹp.

Hiệu quả huấn luyện trước đã tăng lên gấp mười lần, đường cong mở rộng của RL mượt mà và dễ dự đoán, và nó đã đạt đến cấp độ hàng đầu trong lĩnh vực đa phương thức và y tế.

Tuy nhiên, khoảng cách giữa mã nguồn và tác nhân vẫn còn tồn tại, chế độ suy ngẫm vẫn chưa hoàn toàn được mở ra, và lộ trình mã nguồn mở vẫn chỉ là một "hy vọng".

Một áp lực cấp bách hơn là trong cùng tuần đó, Anthropic đã phát hành Mythos, được cho là "quá mạnh mẽ để công khai", và sản phẩm mới của OpenAI, có tên mã là Spud, cũng đang trên đà ra mắt.

Họ đã mua tấm vé trị giá 14,3 tỷ. Thử thách thực sự vẫn còn ở phía trước.

Tham khảo:

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://ai.meta.com/blog/scaling-how-we-build-test-advanced-ai/

https://ai.meta.com/static-resource/muse-spark-eval-methodology

https://x.com/alexandr_wang/status/2041909376508985381

Bài viết này được đăng tải từ tài khoản WeChat chính thức "New Zhiyuan" , tác giả: New Zhiyuan, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
70
Thêm vào Yêu thích
10
Bình luận