Hãy tưởng tượng bạn ra lệnh cho máy tính tìm kiếm các chỗ nghỉ dưỡng cho thuê, so sánh năm trang web, điền vào mẫu đặt phòng và xác nhận chỗ gần bãi biển nhất. Bạn đi pha cà phê. Khi bạn quay lại thì mọi việc đã hoàn tất. Đó chính là lời hứa của "trợ lý ảo sử dụng máy tính" – trí tuệ nhân tạo (AI) đọc màn hình trình duyệt của bạn và thực hiện các thao tác nhấp chuột, cuộn trang và gõ chữ chính xác như con người, mà không cần bất kỳ plugin đặc biệt nào.
OpenAI đã thử nghiệm điều này đầu tiên với Operator , ra mắt vào tháng 1 năm 2025 với giá 200 đô la một tháng trước khi được sáp nhập vào ChatGPT Agent và ngừng hoạt động vào tháng 8. Google có Gemini 2.5 Computer Use. Cả hai đều là phần mềm độc quyền, dựa trên điện toán đám mây và có chi phí vận hành cao.
Tuần này, Microsoft Research đã công bố một mô hình nhỏ gọn có tên Fara1.5 — và trên các bài kiểm tra hiệu năng quan trọng, nó đã vượt trội hơn cả hai mô hình kia.
Hệ thống này có ba kích cỡ: 4 tỷ, 9 tỷ và 27 tỷ tham số, tất cả đều được xây dựng trên Qwen3.5, một mô hình cơ bản của Alibaba mà Microsoft đã tinh chỉnh cho hoạt động trên trình duyệt, với tất cả các trọng số được công bố công khai. (Các tham số là yếu tố quyết định phạm vi kiến thức của mô hình AI, nói chung, số lượng tham số nhiều hơn đồng nghĩa với khả năng cao hơn.)
Để đạt được điều đó, cần phải xem xét lại toàn bộ quy trình phát triển từ đầu. "Chúng tôi bắt đầu với một câu hỏi đơn giản: Cần những gì để một mô hình nhỏ thực sự giỏi trong các nhiệm vụ mang tính tác nhân?" nhóm AI Frontiers viết . "Câu trả lời bao trùm toàn bộ vòng đời - việc tạo dữ liệu, mục tiêu huấn luyện, thiết kế mô hình và điều phối đều phải được thiết kế lại cùng nhau chứ không phải riêng lẻ."
Online-Mind2Web là tiêu chuẩn quan trọng trong nhiệm vụ mà Microsoft muốn vượt trội. Nó kiểm tra tần suất một tác nhân AI hoàn thành chính xác 300 nhiệm vụ thực tế đa dạng trên 136 trang web phổ biến đang hoạt động – những việc như so sánh sản phẩm, điền biểu mẫu và đặt dịch vụ – được chấm điểm theo tỷ lệ phần trăm số nhiệm vụ được hoàn thành chính xác trên internet thực tế, luôn thay đổi.
Fara1.5-27B đạt 72%. OpenAI Operator đạt 58,3%. Google Gemini 2.5 Computer Use đạt 57,3%. Yutori Navigator n1, lựa chọn thay thế độc quyền hàng đầu, đạt 64,7%. Ngay cả Fara1.5-9B, mô hình cỡ trung, cũng đạt 63,4%—vượt trội hơn cả OpenAI và Google.
Các đối thủ mã nguồn mở cũng không đạt được Short như mong đợi. GUI-Owl-1.5 của Alibaba với 8 tỷ tham số chỉ đạt 48,6%. MolmoWeb của AI2 đạt 35,3%. Mô hình trước đó của chính Microsoft, Fara-7B, đạt 34,1%—khiến phiên bản này đạt hiệu suất gần gấp đôi so với phiên bản tiền nhiệm ở quy mô tương đương.
Trên WebVoyager, một tiêu chuẩn thứ hai đo lường mức độ thành công của tác vụ trên web thực tế, cho kết quả tương tự: Fara1.5-27B đạt 88,6%, nhỉnh hơn OpenAI Operator với 87,0% và vượt qua Holo2 của H Company với 30 tỷ tham số ở mức 83,0%.
Bí quyết nằm ở quy trình huấn luyện. Microsoft đã sử dụng một hệ thống có tên FaraGen1.5 để tạo ra dữ liệu huấn luyện. Điều thú vị là: họ đã sử dụng GPT-5.4—mô hình của OpenAI—làm "tác nhân hướng dẫn" để minh họa cách hoàn thành các tác vụ trên trình duyệt. Những minh họa đó trở thành dữ liệu huấn luyện cho Fara1.5. Về cơ bản, bạn đang sử dụng mô hình mạnh nhất của OpenAI để huấn luyện một mô hình mã nguồn mở đối thủ.
Họ cũng tạo ra sáu bản sao giả mạo, hoạt động đầy đủ chức năng của các trang web thực – các ứng dụng email, lịch, sàn thương mại điện tử – để mô hình có thể thực hành các tác vụ yêu cầu đăng nhập hoặc các hành động không thể đảo ngược (như thực sự gửi email hoặc đặt vé máy bay) mà không cần chạm vào tài khoản thực. Điều đó được gọi là huấn luyện tên miền tổng hợp, và đó là một phần quan trọng lý giải tại sao Fara1.5 xử lý các tác vụ "có yêu cầu đăng nhập" tốt hơn các phiên bản trước đó.
Mỗi mô hình đều được thiết kế để dừng lại và hỏi ý kiến trước khi thực hiện điều gì đó mà nó không thể hoàn tác. "Cân bằng giữa các biện pháp bảo vệ mạnh mẽ như Điểm Quan trọng với trải nghiệm người dùng liền mạch là điều then chốt," Yash Lara, Trưởng nhóm Quản lý Sản phẩm cấp cao tại Microsoft Research, chia sẻ với VentureBeat . "Việc có giao diện người dùng, như Magnetic-UI của Microsoft Research, rất quan trọng để tạo cơ hội cho người dùng can thiệp khi cần thiết, đồng thời giúp tránh tình trạng mệt mỏi do phải phê duyệt quá nhiều."
Điều đó rất quan trọng vì OpenAI đã không hề che giấu những rủi ro khi ra mắt ChatGPT Agent. "Khi bạn đăng nhập ChatGPT agent vào các trang web hoặc kích hoạt các trình kết nối, nó sẽ có thể truy cập dữ liệu nhạy cảm từ các nguồn đó, chẳng hạn như email, tệp hoặc thông tin tài khoản", công ty viết .
Fara1.5 chạy mọi thứ thông qua MagenticLite, một môi trường trình duyệt được bảo vệ bằng hộp cát, ghi lại mọi hành động và cho phép người dùng dừng tác nhân bất cứ lúc nào.
Lĩnh vực trí tuệ nhân tạo trình duyệt đã trở thành một cuộc đua khốc liệt — Gemini của Google trong Chrome, Comet của Perplexity, Claude của Anthropic cho Chrome. Ưu điểm của Fara1.5 là tính mở: trọng số công khai, mã suy luận mở trên GitHub , chạy trên phần cứng do bạn kiểm soát. Fara1.5-9B hiện đã có trên Azure AI Foundry ; các phiên bản 4B và 27B sẽ sớm ra mắt. Microsoft cho biết họ có kế hoạch mở rộng Fara1.5 ra ngoài trình duyệt và sang phần mềm máy tính để bàn và doanh nghiệp trong tương lai.





