Firecrawl은 PDF 구문 분석 엔진을 Rust를 사용하여 재작성함으로써 속도를 최대 5.7배 향상시켰습니다.
이 기사는 기계로 번역되었습니다
원문 표시
ME News에 따르면, 4월 15일(UTC+8) 1M AI News는 웹 데이터 클레임 도구인 Firecrawl이 Fire-PDF를 출시했다고 보도했습니다. Rust로 재작성된 이 PDF 파싱 엔진은 이전 버전보다 PDF를 구조화된 Markdown으로 3.5~5.7배 빠르게 변환하며, 페이지당 평균 처리 시간은 400밀리초 미만입니다. 이러한 속도 향상의 핵심은 불필요한 GPU 사용을 줄이는 데 있습니다. Firecrawl은 또한 각 PDF 페이지를 밀리초 단위로 분류할 수 있는 Rust 라이브러리인 pdf-inspector를 오픈소스로 공개했습니다. 일반 텍스트 페이지는 GPU를 사용하지 않고 네이티브 방식으로 직접 클레임, 스캔 문서나 이미지가 많은 페이지만 신경망 레이아웃 모델과 GLM-OCR 시각 언어 모델을 사용하여 처리됩니다. 예를 들어, 150페이지 분량의 텍스트 보고서와 60페이지 분량의 스캔 재무 보고서에서 대부분의 페이지는 GPU 입력이 필요하지 않습니다. 정확도 측면에서 Fire-PDF는 콘텐츠 유형에 따라 다른 매개변수를 설정합니다. 표는 더 높은 토큰 제한과 최대 생성 시간 25초를 적용받습니다. LaTeX 형식의 수식은 그대로 유지되며, 다중 열 레이아웃은 신경망을 사용하여 읽기 순서를 예측합니다. Fire-PDF는 모든 Firecrawl 사용자에게 자동으로 활성화되며, 별도의 설정이 필요하지 않습니다. (출처: ME)
출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유





