Tác giả: Tina, Dongmei , InfoQ
1. Gần ba năm sau, Musk lại mã nguồn mở nguồn thuật toán đề xuất X.
Mới đây, đội ngũ kỹ thuật X đã thông báo trên X rằng họ đã chính thức mã nguồn mở thuật toán đề xuất của X. Theo phần giới thiệu, thư viện mã nguồn mở này chứa hệ thống đề xuất cốt lõi cung cấp năng lượng cho mục "Đề xuất dành cho bạn" trên X. Nó kết hợp nội dung trong mạng lưới (từ các tài khoản được người dùng theo dõi) với nội dung ngoài mạng lưới (được phát hiện thông qua truy xuất dựa trên máy học) và sử dụng mô hình Transformer dựa trên Grok để xếp hạng tất cả nội dung. Nói cách khác, thuật toán sử dụng cùng kiến trúc Transformer như Grok.
Địa chỉ mã nguồn mở: https://x.com/XEng/status/2013471689087086804

Thuật toán đề xuất của X chịu trách nhiệm tạo ra nội dung "Dành cho bạn" mà người dùng thấy trên giao diện chính. Nó thu thập các bài đăng tiềm năng từ hai nguồn chính:
Các tài khoản bạn theo dõi (Trong mạng nội bộ / Thunder)
Các bài đăng khác được tìm thấy trên nền tảng (Ngoài mạng / Phoenix)
Các hồ sơ ứng tuyển này sau đó được xử lý, lọc và sắp xếp theo mức độ liên quan.
Vậy, kiến trúc cốt lõi và logic hoạt động của thuật toán là gì?
Thuật toán trước tiên trích xuất nội dung ứng cử viên từ hai loại nguồn:
Nội dung trong danh sách bạn đang theo dõi: Bài đăng từ các tài khoản bạn chủ động theo dõi.
Nội dung không thú vị: Các bài đăng mà hệ thống lấy từ toàn bộ thư viện nội dung mà bạn có thể quan tâm.
Mục tiêu của giai đoạn này là "tìm kiếm các bài đăng có khả năng liên quan".
Hệ thống tự động loại bỏ nội dung chất lượng thấp, trùng lặp, bất hợp pháp hoặc không phù hợp. Ví dụ:
Nội dung của các tài khoản bị chặn
Các chủ đề mà người dùng rõ ràng không quan tâm
Bài đăng bất hợp pháp, lỗi thời hoặc không hợp lệ
Điều này đảm bảo rằng chỉ những ứng viên có giá trị mới được xử lý trong giai đoạn sắp xếp cuối cùng.
Cốt lõi của thuật toán mã nguồn mở lần là hệ thống sử dụng mô hình Transformer dựa trên Grok (tương tự như mô hình ngôn ngữ/mạng học độ sâu mô lớn) để chấm điểm cho mỗi bài đăng tiềm năng. Mô hình Transformer dự đoán xác suất của mỗi hành động dựa trên hành vi lịch sử của người dùng (lượt thích, trả lời, chia sẻ, nhấn, v.v.). Cuối cùng, các xác suất hành động này được trọng số hóa và kết hợp thành một điểm số tổng hợp; các bài đăng có điểm số cao hơn có nhiều khả năng được đề xuất cho người dùng.
Về cơ bản, thiết kế này loại bỏ phương pháp rút đặc điểm thủ công truyền thống, thay vào đó sử dụng phương pháp học tập từ đầu đến cuối để dự đoán sở thích của người dùng.

Đây không phải là lần Musk mã nguồn mở thuật toán đề xuất X.
Vào ngày 31 tháng 3 năm 2023, đúng như lời hứa khi Musk mua lại Twitter, ông đã chính thức mã nguồn mở một phần mã nguồn của Twitter, trong đó thuật toán đề xuất các tweet trên dòng thời gian của người dùng . Ngay trong ngày mã nguồn mở, dự án đã thu hút hơn 10.000 lượt đánh dấu sao trên GitHub.
Vào thời điểm đó, Musk tuyên bố trên Twitter lần bao gồm "hầu hết thuật toán đề xuất", các thuật toán còn lại sẽ được phát hành dần dần. Ông cũng bày tỏ hy vọng rằng "các bên thứ ba độc lập có thể xác định với độ chính xác hợp lý những gì Twitter có thể hiển thị cho người dùng".
Trong một cuộc thảo luận trên Space về việc phát hành thuật toán, ông cho biết dự án mã nguồn mở lần nhằm mục đích biến Twitter thành "hệ thống minh bạch nhất trên internet" và mạnh mẽ như Linux, dự án mã nguồn mở có tiếng và thành công nhất. "Mục tiêu tổng thể là đảm bảo rằng người dùng tiếp tục ủng hộ Twitter có thể tận hưởng nó một cách trọn vẹn nhất."

Gần ba năm đã trôi qua kể từ khi Musk lần đầu tiên mã nguồn mở thuật toán X. Là một KOL siêu hạng trong giới công nghệ, Musk đã thực hiện rất nhiều hoạt động quảng bá cho mã nguồn mở lần .
Vào ngày 11 tháng 1, Musk đăng trên X rằng ông sẽ mã nguồn mở thuật toán X mới (bao gồm toàn bộ mã được sử dụng để xác định nội dung tìm kiếm tự nhiên và nội dung quảng cáo nào nên được đề xuất cho người dùng) trong vòng 7 ngày.
Quá trình này sẽ được lặp lại sau mỗi 4 tuần, kèm theo ghi chú chi tiết từ nhà phát triển để giúp người dùng hiểu rõ những thay đổi đã được thực hiện.
Ngày nay, lời hứa của ông đã được thực hiện một lần nữa.

2. Tại sao Musk muốn phát mã nguồn mở?
Khi Elon Musk nhắc đến "mã nguồn mở" một lần nữa, phản ứng đầu tiên từ thế giới bên ngoài không phải là chủ nghĩa lý tưởng công nghệ, mà là áp lực của thực tế.
Trong năm qua, X liên tục vướng vào tranh cãi do cơ chế phân phối nội dung của mình. Nền tảng này bị chỉ trích rộng rãi vì thuật toán thiên vị và thúc đẩy quan điểm cánh hữu, một xu hướng không được xem là các sự cố riêng lẻ mà cho rằng là mang tính hệ thống. Một báo cáo nghiên cứu được công bố năm ngoái đã chỉ ra rằng hệ thống đề xuất của X thể hiện một sự thiên vị mới đáng kể trong việc phổ biến nội dung chính trị.
Trong khi đó, một số trường hợp cực đoan đã làm gia tăng thêm sự hoài nghi từ bên ngoài. Năm ngoái, một video không bị kiểm duyệt về vụ ám sát nhà hoạt động cánh hữu người Mỹ Charlie Kirk đã lan truyền nhanh chóng trên nền tảng X, gây ra làn sóng phản đối mạnh mẽ trong dư luận. Các nhà phê cho rằng điều này không chỉ phơi bày sự thất bại của cơ chế kiểm duyệt của nền tảng mà còn làm nổi bật sức mạnh tiềm ẩn của thuật toán trong việc quyết định "nên khuếch đại cái gì và không nên khuếch đại cái gì".
Trong bối cảnh đó, việc Musk đột ngột nhấn mạnh vào tính minh bạch của thuật toán khó có thể được hiểu đơn thuần chỉ là một quyết định kỹ thuật.

3. Cư dân mạng nghĩ gì?
Sau khi thuật toán đề xuất của X mã nguồn mở, người dùng trên nền tảng X đã tóm tắt năm điểm sau đây liên quan đến cơ chế hoạt động của nó:
- Trả lời bình luận của bạn . Thuật toán tỷ trọng"trả lời + phản hồi của tác giả" cao hơn 75 lần so với "thích". Việc không trả lời bình luận sẽ ảnh hưởng nghiêm trọng đến khả năng hiển thị của bạn.
- Việc chèn liên kết sẽ làm giảm khả năng hiển thị . Liên kết nên được đặt trong trang cá nhân hoặc bài đăng được ghim, không bao giờ được đặt trong nội dung chính của bài đăng.
- Thời gian xem rất quan trọng . Nếu họ lướt qua, bạn chưa thu hút được sự chú ý của họ. Video/bài đăng nhận được nhiều tương tác vì chúng khiến người dùng dừng lại.
- Hãy tập trung vào lĩnh vực chuyên môn của bạn . Những "cụm mô phỏng" này là có thật. Nếu bạn đi chệch khỏi lĩnh vực cụ thể của mình (crypto, công nghệ, v.v.), bạn sẽ mất quyền truy cập vào bất kỳ kênh phân phối nào.
- Chặn người khác hoặc im lặng sẽ làm giảm điểm số của bạn đáng kể . Hãy gây tranh cãi, nhưng đừng gây khó chịu.
Tóm lại: Hãy giao tiếp với người dùng, xây dựng mối quan hệ và giữ chân họ trong ứng dụng. Thực ra điều này khá đơn giản.

Một số cư dân mạng cũng nhận thấy rằng mặc dù kiến trúc là mã nguồn mở, nhưng một số thành phần vẫn bị mã nguồn mở. Một cư dân mạng cho rằng bản phát hành lần về cơ bản chỉ là một khung sườn, chứ không có công cụ hoàn chỉnh. Vậy chính xác thì điều gì còn thiếu?
Thiếu các tham số tỷ trọng - Mã xác nhận "phần thưởng hành vi tích cực" và "hình phạt hành vi tiêu cực", nhưng không giống như phiên bản năm 2023, các giá trị cụ thể đã bị loại bỏ.
Tỷ trọng mô hình ẩn - không bao gồm các tham số và phép tính nội bộ của mô hình.
Dữ liệu huấn luyện chưa được công bố - Chúng tôi không biết gì về dữ liệu được sử dụng để huấn luyện mô hình, cách lấy mẫu hành vi người dùng hoặc cách xây dựng các mẫu "tốt" và "xấu".
Đối với người dùng X thông thường, mã nguồn mở của thuật toán X sẽ không có tác động đáng kể. Tuy nhiên, tính minh bạch cao hơn có thể giải thích tại sao một số bài đăng được chú ý trong khi những bài khác lại không được quan tâm, và nó cho phép các nhà nghiên cứu nghiên cứu cách nền tảng này xếp hạng nội dung.
4. Tại sao hệ thống đề xuất lại là một lĩnh vực gây tranh cãi gay gắt?
Trong hầu hết các cuộc thảo luận kỹ thuật, hệ thống đề xuất thường được xem là một phần của kỹ thuật hệ thống phía sau – kín đáo, phức tạp và hiếm khi được chú ý. Tuy nhiên, một phân tích thực sự về cách thức hoạt động của các ông lớn internet cho thấy rằng hệ thống đề xuất không phải là mô-đun ngoại vi, mà là "các thực thể cấp cơ sở hạ tầng" hỗ trợ toàn bộ mô hình kinh doanh. Đó là lý do tại sao chúng có thể được gọi là "những gã khổng lồ thầm lặng" của ngành công nghiệp internet.
Dữ liệu công khai đã nhiều lần xác nhận điều này. Amazon đã tiết lộ rằng khoảng 35% giao dịch mua hàng trên nền tảng của họ đến trực tiếp từ hệ thống đề xuất; Netflix thậm chí còn mạnh mẽ hơn, với khoảng 80% thời gian xem được thúc đẩy bởi các thuật toán đề xuất; YouTube cũng tương tự, với khoảng 70% lượt xem đến từ hệ thống đề xuất của nó, đặc biệt là nguồn cấp dữ liệu. Còn đối với Meta, mặc dù chưa bao giờ đưa ra tỷ lệ phần trăm cụ thể, nhưng đội ngũ kỹ thuật của họ đã đề cập rằng khoảng 80% chu kỳ tỷ lệ băm trong các cụm máy tính nội bộ của họ được dành riêng cho nhiệm vụ liên quan đến đề xuất.
Những con số này có ý nghĩa gì? Loại bỏ hệ thống đề xuất khỏi các sản phẩm này gần giống như phá bỏ nền móng . Lấy Meta làm ví dụ: vị trí quảng cáo, thời gian người dùng ở lại trang và tỷ lệ chuyển đổi đều được xây dựng dựa trên hệ thống đề xuất. Hệ thống đề xuất không chỉ quyết định "những gì người dùng nhìn thấy", mà còn trực tiếp quyết định "cách nền tảng kiếm tiền".
Tuy nhiên, chính hệ thống quyết định sự sống và cái chết này từ lâu đã phải đối mặt với vấn đề độ phức tạp kỹ thuật cực kỳ cao.
Trong các kiến trúc hệ thống đề xuất truyền thống, rất khó để sử dụng một mô hình thống nhất duy nhất để bao quát tất cả các trường hợp. Các hệ thống sản xuất thực tế thường rất phân mảnh. Ví dụ, các công ty như Meta, LinkedIn và Netflix thường chạy đồng thời 30 mô hình chuyên biệt đằng sau một Chuỗi đề xuất hoàn chỉnh: mô hình thu hồi, mô hình xếp hạng thô, mô hình xếp hạng tinh và mô hình xếp hạng lại, mỗi mô hình được tối ưu hóa cho các hàm mục tiêu và chỉ báo việc kinh doanh khác nhau. Đằng sau mỗi mô hình, thường có một hoặc nhiều đội ngũ chịu trách nhiệm về kỹ thuật đặc trưng, huấn luyện, điều chỉnh tham số, ra mắt và lặp lại liên tục.
Nhược điểm của phương pháp này rất rõ ràng: độ phức tạp về kỹ thuật, chi phí bảo trì cao và khó khăn trong việc phối hợp giữa nhiệm vụ. Khi ai đó đề xuất, "Liệu một mô hình duy nhất có thể giải quyết nhiều vấn đề đề xuất?", điều đó có nghĩa là độ phức tạp của toàn hệ thống giảm đáng kể. Đây chính xác là mục tiêu mà ngành công nghiệp đã mong muốn từ lâu nhưng vẫn chưa đạt được.
Sự xuất hiện của các mô hình ngôn ngữ quy mô lớn đã mở ra một hướng đi khả thi mới cho các hệ thống đề xuất.
Trong thực tế, LLM đã chứng minh là một mô hình đa năng cực kỳ mạnh mẽ: nó có khả năng chuyển giao cao giữa nhiệm vụ khác nhau, và hiệu suất của nó tiếp tục được cải thiện khi quy mô dữ liệu và tỷ lệ băm mở rộng. Ngược lại, các mô hình đề xuất truyền thống thường được "tùy chỉnh nhiệm vụ", khiến việc chia sẻ khả năng giữa nhiều tình huống trở nên khó khăn.
Quan trọng hơn, một mô hình lớn duy nhất không chỉ đơn giản hóa quá trình thiết kế mà còn mang lại tiềm năng "học hỏi chéo". Khi cùng một mô hình xử lý nhiều nhiệm vụ đề xuất đồng thời, các tín hiệu từ nhiệm vụ khác nhau có thể bổ sung cho nhau, và mô hình có thể dễ dàng phát triển hơn khi quy mô dữ liệu tăng trưởng. Đây chính xác là đặc điểm mà các hệ thống đề xuất đã mong muốn từ lâu nhưng lại gặp khó khăn trong việc đạt được bằng các phương pháp truyền thống.
LLM đã thay đổi những gì? Thực tế, nó đã thay đổi mọi thứ, từ kỹ thuật trích chọn đặc trưng đến khả năng hiểu các đặc trưng.
Từ góc độ phương pháp luận, thay đổi lớn nhất mà LLM mang lại cho hệ thống đề xuất nằm ở quy trình cốt lõi của "kỹ thuật đặc trưng".
Trong các hệ thống đề xuất truyền thống, các kỹ sư trước tiên cần phải tự tay xây dựng lượng lớn tín hiệu: lịch sử nhấn của người dùng, thời gian lưu lại trên trang, sở thích của người dùng tương tự, thẻ nội dung, v.v., và sau đó nói rõ với mô hình "hãy đưa ra phán đoán dựa trên các đặc điểm này". Bản thân mô hình không hiểu ngữ nghĩa của các tín hiệu này; nó chỉ học mối quan hệ ánh xạ trong không gian số.
Với sự ra đời của các mô hình ngôn ngữ, quá trình này được trừu tượng hóa cao độ. Bạn không còn cần phải chỉ định từng tín hiệu một như "xem tín hiệu này, bỏ qua tín hiệu kia", mà có thể trực tiếp mô tả vấn đề cho mô hình: Đây là người dùng, đây là nội dung; người dùng này đã thích nội dung tương tự trong quá khứ, và những người dùng khác cũng đã đưa ra phản hồi tích cực về nội dung này - bây giờ hãy xác định xem nội dung này có nên được đề xuất cho người dùng này hay không.
Các mô hình ngôn ngữ vốn dĩ sở hữu khả năng hiểu biết; chúng có thể tự xác định thông tin nào cấu thành tín hiệu quan trọng và cách tổng hợp các tín hiệu này để đưa ra quyết định. Theo một nghĩa nào đó, chúng không chỉ đơn thuần thực thi các quy tắc đề xuất, mà còn "hiểu được hành động đề xuất".
Khả năng này xuất phát từ thực tế là các mô hình học máy tuyến tính (LLM) được tiếp xúc với lượng dữ liệu khổng lồ và đa dạng trong giai đoạn huấn luyện, giúp chúng nắm bắt được những mẫu hình tinh tế nhưng quan trọng một cách hiệu quả hơn. Ngược lại, các hệ thống đề xuất truyền thống phải dựa vào các kỹ sư để liệt kê rõ ràng các mẫu hình này, và nếu bỏ sót bất kỳ mẫu hình nào, mô hình sẽ không thể phát hiện ra chúng.
Từ góc độ hệ thống phụ trợ, sự thay đổi này không phải là điều xa lạ. Cũng giống như GPT tạo ra câu trả lời dựa trên thông tin ngữ cảnh khi bạn đặt câu hỏi, nó cũng có thể đưa ra phán đoán dựa trên thông tin hiện có khi bạn hỏi, "Tôi có quan tâm đến nội dung này không?". Ở một mức độ nào đó, bản thân các mô hình ngôn ngữ đã sở hữu khả năng "đề xuất".




