MinerU: An Open-Source Solution for Precise Document Content Extraction

要約

文書コンテンツ分析は、コンピューター ビジョンにおける重要な研究分野です。
OCR、レイアウト検出、数式認識などの手法は大幅に進歩していますが、既存のオープンソース ソリューションでは、文書の種類やコンテンツが多様であるため、高品質のコンテンツ抽出を一貫して提供するのが困難です。
これらの課題に対処するために、高精度のドキュメント コンテンツ抽出のためのオープンソース ソリューションである MinerU を紹介します。
MinerU は、洗練された PDF-Extract-Kit モデルを活用して、さまざまなドキュメントからコンテンツを効果的に抽出し、細かく調整された前処理ルールと後処理ルールを採用して、最終結果の精度を保証します。
実験結果は、MinerU がさまざまな種類のドキュメントにわたって一貫して高いパフォーマンスを達成し、コンテンツ抽出の品質と一貫性を大幅に向上させることを示しています。
MinerU オープンソース プロジェクトは、https://github.com/opendatalab/MinerU で入手できます。

要約(オリジナル)

Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.

arxiv情報

著者 Bin Wang,Chao Xu,Xiaomeng Zhao,Linke Ouyang,Fan Wu,Zhiyuan Zhao,Rui Xu,Kaiwen Liu,Yuan Qu,Fukai Shang,Bo Zhang,Liqun Wei,Zhihao Sui,Wei Li,Botian Shi,Yu Qiao,Dahua Lin,Conghui He
発行日 2024-09-27 15:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク