Firecrawl đã viết lại công cụ phân tích cú pháp PDF của mình bằng ngôn ngữ Rust, giúp tăng tốc độ lên đến 5,7 lần.
Bài viết này được dịch máy
Xem bản gốc
Theo ME News, vào ngày 15 tháng 4 (UTC+8), 1M AI News đưa tin rằng Firecrawl, một công cụ rút dữ liệu web, đã phát hành Fire-PDF. Công cụ phân tích PDF này, được viết lại bằng Rust, chuyển đổi PDF sang Markdown có cấu trúc nhanh hơn từ 3,5 đến 5,7 lần so với phiên bản tiền nhiệm, với thời gian xử lý trung bình dưới 400 mili giây mỗi trang. Chìa khóa cho sự tăng tốc này nằm ở việc giảm thiểu việc sử dụng GPU không cần thiết. Firecrawl cũng mã nguồn mở thư viện Rust pdf-inspector, có thể phân loại từng trang PDF trong vài mili giây: các trang văn bản thuần túy rút trực tiếp mà không cần GPU; chỉ các tài liệu được quét hoặc các trang chứa nhiều hình ảnh mới được xử lý bằng mô hình bố cục mạng thần kinh và mô hình ngôn ngữ hình ảnh GLM-OCR. Ví dụ, trong một văn bản 150 trang và một báo cáo tài chính được quét 60 trang, hầu hết các trang không cần GPU. Về độ chính xác, Fire-PDF đặt các tham số khác nhau cho các loại nội dung khác nhau: bảng nhận giới hạn mã thông báo cao hơn và thời gian tạo tối đa là 25 giây; công thức được giữ nguyên ở dạng LaTeX; và bố cục nhiều cột sử dụng mạng nơ-ron để dự đoán thứ tự đọc. Fire-PDF được tự động kích hoạt cho tất cả người dùng Firecrawl; không cần cấu hình. (Nguồn: ME)
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan




