PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction

要約

ドキュメントレイアウト分析は、ドキュメントインテリジェンスの重要な前処理ステップであり、タイトル、テキストブロック、テーブル、式などの構造要素の検出とローカリゼーションを可能にします。
その重要性にもかかわらず、既存のレイアウト検出モデルは、多様なドキュメントタイプ全体で一般化し、複雑なレイアウトの処理、大規模なデータ処理のリアルタイムパフォーマンスを達成する上で重要な課題に直面しています。
これらの制限に対処するために、PP-Doclayoutを提示します。PP-Doclayoutは、多様なドキュメント形式で23種類のレイアウト領域を認識する際に高い精度と効率を達成します。
さまざまなニーズを満たすために、さまざまなスケールの3つのモデルを提供します。
PP-Doclayout-Lは、RT-Detr-L検出器に基づく高精度モデルであり、90.4%のMAP@0.5とT4 GPUでページあたり13.4 msのエンドツーエンドの推論時間を達成します。
PP-Doclayout-Mはバランスの取れたモデルであり、75.2%のMAP@0.5を提供し、T4 GPUで1ページあたり12.7ミリ秒の推論時間を提供します。
PP-Doclayout-Sは、リソース制約の環境とリアルタイムアプリケーション向けに設計された高効率モデルであり、T4 GPUで1ページあたり8.1ミリ秒、CPUで14.5ミリ秒の推論時間があります。
この作業は、ドキュメントレイアウト分析で最先端の最先端を進歩させるだけでなく、高品質のトレーニングデータを構築するための堅牢なソリューションを提供し、ドキュメントインテリジェンスとマルチモーダルAIシステムの進歩を可能にします。
コードとモデルはhttps://github.com/paddlepaddle/paddlexで入手できます。

要約(オリジナル)

Document layout analysis is a critical preprocessing step in document intelligence, enabling the detection and localization of structural elements such as titles, text blocks, tables, and formulas. Despite its importance, existing layout detection models face significant challenges in generalizing across diverse document types, handling complex layouts, and achieving real-time performance for large-scale data processing. To address these limitations, we present PP-DocLayout, which achieves high precision and efficiency in recognizing 23 types of layout regions across diverse document formats. To meet different needs, we offer three models of varying scales. PP-DocLayout-L is a high-precision model based on the RT-DETR-L detector, achieving 90.4% mAP@0.5 and an end-to-end inference time of 13.4 ms per page on a T4 GPU. PP-DocLayout-M is a balanced model, offering 75.2% mAP@0.5 with an inference time of 12.7 ms per page on a T4 GPU. PP-DocLayout-S is a high-efficiency model designed for resource-constrained environments and real-time applications, with an inference time of 8.1 ms per page on a T4 GPU and 14.5 ms on a CPU. This work not only advances the state of the art in document layout analysis but also provides a robust solution for constructing high-quality training data, enabling advancements in document intelligence and multimodal AI systems. Code and models are available at https://github.com/PaddlePaddle/PaddleX .

arxiv情報

著者 Ting Sun,Cheng Cui,Yuning Du,Yi Liu
発行日 2025-03-21 15:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク