Firecrawl用Rust重寫PDF解析引擎,速度最高提至此前5.7倍

ME News 消息,4 月 15 日(UTC+8),據 1M AI News 監測,網頁數據提取工具 Firecrawl 發佈 Fire-PDF,用 Rust 重寫的 PDF 解析引擎,將 PDF 轉為結構化 Markdown 的速度提至上一代的 3.5 至 5.7 倍,平均每頁處理時間低於 400 毫秒。 提速核心在於減少不必要的 GPU 調用。Firecrawl 同步開源了 Rust 庫 pdf-inspector,可在毫秒級對每頁 PDF 進行分類:純文本頁直接原生提取,跳過 GPU;只有掃描件或圖片密集的頁面才送入神經網絡佈局模型和 GLM-OCR 視覺語言模型處理。以一份 150 頁文本加 60 頁掃描件的財報為例,大部分頁面無需 GPU。 準確度方面,Fire-PDF 對不同內容類型分別設參:表格獲得更高 token 限額和最多 25 秒生成時間,公式以 LaTeX 保留,多欄佈局通過神經網絡預測閱讀順序。Fire-PDF 已對所有 Firecrawl 用戶自動生效,無需配置。 (來源:ME)

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論