Khung đổi mới mã nguồn mở của Microsoft: DeepSeek-R1 và các mô hình khác có thể được chuyển thành AI Agents
Bài viết này được dịch máy
Xem bản gốc
Odaily báo cáo rằng Microsoft đã phát hành phiên bản mới nhất 2.0 của khung phân tích tác nhân trực quan OmniParser trên trang web của họ, có thể biến các mô hình như DeepSeek-R1, GPT-4o, Qwen-2.5VL thành các Tác nhân AI có thể sử dụng trên máy tính. So với phiên bản V1, V2 có độ chính xác cao hơn và tốc độ suy luận nhanh hơn khi phát hiện các phần tử giao diện người dùng tương tác nhỏ, giảm độ trễ 60%. Trong bài kiểm tra chuẩn mực Tác nhân độ phân giải cao ScreenSpot Pro, độ chính xác của V2+GPT-4o đạt đến mức ấn tượng 39,6%, trong khi độ chính xác gốc của GPT-4o chỉ 0,8%, tăng rất nhiều. Ngoài V2, Microsoft cũng đã mã nguồn mở omnitool, đây là một hệ thống Windows dựa trên Docker, bao gồm các chức năng như hiểu biết màn hình, định vị, lập kế hoạch hành động và thực hiện, cũng là công cụ then chốt để biến các mô hình lớn thành Tác nhân.
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan




