마이크로소프트의 무료 AI가 웹 브라우징에서 오픈AI와 구글을 제쳤습니다.

이 기사는 기계로 번역되었습니다

원문 표시

컴퓨터에게 휴가용 숙소를 검색하고, 다섯 군데 사이트를 비교하고, 예약 양식을 작성하고, 해변에서 가장 가까운 숙소를 확정하라고 지시하는 모습을 상상해 보세요. 커피를 마시러 잠시 자리를 비웠다가 돌아오면 모든 것이 완료되어 있을 겁니다. 이것이 바로 "컴퓨터 사용자 에이전트"의 약속입니다. 인공지능이 사용자의 브라우저 화면을 읽고, 마치 사람처럼 클릭하고, 스크롤하고, 타이핑하는 이 에이전트는 특별한 플러그인 없이도 작동할 것입니다.

OpenAI는 Operator라는 서비스를 통해 처음으로 이러한 시도를 했으며 , 이 서비스는 2025년 1월에 월 200달러에 출시되었다가 ChatGPT Agent에 통합된 후 8월에 종료되었습니다. 구글은 제미니(Gemini) 2.5라는 컴퓨터 사용형 서비스를 제공하고 있습니다. 두 서비스 모두 독점 클라우드 기반이며 운영 비용이 비쌉니다.

이번 주 마이크로소프트 리서치는 Fara1.5 라는 이름의 초소형 모델을 공개했는데, 주요 벤치마크 테스트에서 이 모델이 기존 두 제품보다 우수한 성능을 보였습니다.

이 제품군은 40억, 90억, 270억 개의 매개변수를 가진 세 가지 크기로 제공되며, 모두 마이크로소프트가 브라우저 작업에 맞게 미세 조정한 알리바바 기반 모델인 Qwen3.5를 기반으로 구축되었고 모든 가중치가 공개되었습니다. (매개변수는 AI 모델의 지식 범위를 결정하는 요소이며, 일반적으로 매개변수가 많을수록 용량이 크다는 것을 의미합니다.)

그 목표를 달성하기 위해서는 전체 개발 프로세스를 처음부터 다시 생각해야 했습니다. AI Frontiers 팀은 "우리는 간단한 질문에서 시작했습니다. 작은 모델이 에이전트 작업을 진정으로 잘 수행하려면 무엇이 필요할까요?" 라고 썼습니다 . "그 답은 전체 수명 주기, 즉 데이터 생성, 훈련 목표, 모델 설계 및 오케스트레이션에 걸쳐 있었으며, 이 모든 것을 개별적으로가 아니라 함께 재설계해야 했습니다."

Online-Mind2Web은 마이크로소프트가 탁월한 성과를 내고자 했던 과제에서 중요한 기준점입니다. 이 지표는 AI 에이전트가 136개의 인기 웹사이트에서 제품 비교, 양식 작성, 서비스 예약 등 300가지의 다양하고 실제적인 작업을 얼마나 자주 정확하게 완료하는지를 측정합니다. 점수는 실제 변화하는 인터넷 환경에서 작업을 얼마나 정확하게 완료했는지를 백분율로 나타냅니다.

Fara1.5-27B는 72%의 점수를 기록했습니다. OpenAI Operator는 58.3%, Google의 제미니(Gemini) 2.5 Computer Use는 57.3%를 기록했습니다. 자체 개발 제품 중 최고 성능을 보인 Yutori의 Navigator n1은 64.7%를 달성했습니다. 중간 크기 모델인 Fara1.5-9B조차도 63.4%를 기록하며 OpenAI와 Google을 모두 앞섰습니다.

오픈소스 경쟁 제품들도 숏 미치지 못했습니다. 알리바바의 GUI-Owl-1.5는 80억 개의 매개변수에서 48.6%의 정확도를 보였고, AI2의 MolmoWeb은 35.3%를 기록했습니다. 마이크로소프트의 이전 모델인 Fara-7B는 34.1%를 기록했는데, 이번 버전은 비슷한 규모의 이전 모델보다 거의 두 배에 가까운 정확도를 보였습니다.

실제 웹 환경에서 작업 성공률을 측정하는 두 번째 벤치마크인 WebVoyager에서도 동일한 결과가 나왔습니다. Fara1.5-27B는 88.6%의 성공률을 기록하며 OpenAI Operator의 87.0%를 앞섰고, H Company의 300억 개 매개변수 Holo2의 83.0%보다 높은 점수를 받았습니다.

핵심 비결은 바로 학습 파이프라인에 있습니다. 마이크로소프트는 FaraGen1.5라는 시스템을 사용하여 학습 데이터를 생성했습니다. 여기서 중요한 점은, OpenAI의 GPT-5.4 모델을 "교사 에이전트"로 활용하여 브라우저 작업을 수행하는 방법을 시연했다는 것입니다. 이 시연 영상이 바로 Fara1.5의 학습 데이터가 됩니다. 즉, OpenAI의 가장 뛰어난 모델을 사용하여 경쟁 관계에 있는 오픈 소스 모델을 학습시키는 것입니다.

또한, 이메일 클라이언트, 캘린더, 마켓플레이스 등 실제 웹사이트와 똑같이 생긴 가짜 웹사이트 6개를 만들어 모델이 실제 계정에 접근하지 않고도 로그인이나 취소 불가능한 작업(예: 이메일 전송 또는 항공편 예약)을 연습할 수 있도록 했습니다. 이를 합성 도메인 학습이라고 하며, Fara 1.5가 이전 버전보다 "제한된" 작업을 더 잘 처리하는 중요한 이유 중 하나입니다.

모든 모델은 되돌릴 수 없는 작업을 수행하기 전에 멈추고 사용자에게 묻도록 설계되었습니다. 마이크로소프트 리서치의 선임 PM 리더인 야시 라라는 벤처비트와의 인터뷰에서 "핵심 지점과 같은 강력한 안전 장치와 원활한 사용자 여정 사이의 균형을 맞추는 것이 중요합니다."라고 말했습니다 . "마이크로소프트 리서치의 마그네틱 UI와 같은 UI는 사용자가 필요할 때 개입할 수 있는 기회를 제공하는 동시에 승인 피로감을 방지하는 데 필수적입니다."

이는 OpenAI가 ChatGPT Agent를 출시할 당시 위험성을 명확히 밝혔기 때문에 중요한 문제입니다. OpenAI는 "ChatGPT Agent를 웹사이트에 로그인하거나 커넥터를 활성화하면 이메일, 파일 또는 계정 정보와 같은 해당 소스의 민감한 데이터에 접근할 수 있게 됩니다." 라고 명시했습니다 .

Fara 1.5는 모든 작업을 샌드박스 브라우저 환경인 MagenticLite를 통해 실행합니다. MagenticLite는 모든 작업을 기록하고 사용자가 언제든지 에이전트를 중지할 수 있도록 합니다.

브라우저 AI 시장은 구글의 크롬용 제미니(Gemini) , Perplexity의 Comet, Anthropic의 Claude 등 경쟁이 치열한 분야로 떠올랐습니다 . Fara1.5의 강점은 개방형이라는 점입니다. 공개된 가중치와 GitHub 에서 확인할 수 있는 공개 추론 코드, 그리고 사용자가 직접 제어할 수 있는 하드웨어에서의 실행이 가능합니다. Fara1.5-9B는 현재 Azure AI Foundry 에서 이용 가능하며, 4B 및 27B 버전은 곧 출시될 예정입니다. 마이크로소프트는 Fara1.5를 브라우저를 넘어 데스크톱 및 기업용 소프트웨어로 확장할 계획이라고 밝혔습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트