要約
文書レイアウト分析は、現実世界の文書理解システムにとって重要ですが、速度と精度の間で困難なトレードオフに直面します。テキストとビジュアル機能の両方を活用するマルチモーダル手法は、より高い精度を達成しますが、大幅な遅延に悩まされます。一方、ユニモーダル手法はビジュアルのみに依存します。
これらの機能により、精度は犠牲になりますが、処理速度が向上します。
このジレンマに対処するために、事前トレーニングとモデル設計の両方でドキュメント固有の最適化を通じて速度の利点を維持しながら精度を向上させる新しいアプローチである DocLayout-YOLO を導入します。
堅牢なドキュメントの事前トレーニングのために、ドキュメント合成を 2 次元のビン パッキング問題としてフレーム化し、大規模で多様な DocSynth-300K データセットを生成するメッシュ候補 BestFit アルゴリズムを導入します。
結果として得られる DocSynth-300K データセットでの事前トレーニングにより、さまざまなドキュメント タイプにわたる微調整パフォーマンスが大幅に向上します。
モデルの最適化の観点から、文書要素のマルチスケールのバリエーションをより適切に処理できる、グローバルからローカルへの制御可能な受信モジュールを提案します。
さらに、さまざまな種類のドキュメントのパフォーマンスを検証するために、DocStructBench という複雑で挑戦的なベンチマークを導入しました。
ダウンストリーム データセットに対する広範な実験により、DocLayout-YOLO が速度と精度の両方で優れていることが実証されました。
コード、データ、モデルは https://github.com/opendatalab/DocLayout-YOLO で入手できます。
要約(オリジナル)
Document Layout Analysis is crucial for real-world document understanding systems, but it encounters a challenging trade-off between speed and accuracy: multimodal methods leveraging both text and visual features achieve higher accuracy but suffer from significant latency, whereas unimodal methods relying solely on visual features offer faster processing speeds at the expense of accuracy. To address this dilemma, we introduce DocLayout-YOLO, a novel approach that enhances accuracy while maintaining speed advantages through document-specific optimizations in both pre-training and model design. For robust document pre-training, we introduce the Mesh-candidate BestFit algorithm, which frames document synthesis as a two-dimensional bin packing problem, generating the large-scale, diverse DocSynth-300K dataset. Pre-training on the resulting DocSynth-300K dataset significantly improves fine-tuning performance across various document types. In terms of model optimization, we propose a Global-to-Local Controllable Receptive Module that is capable of better handling multi-scale variations of document elements. Furthermore, to validate performance across different document types, we introduce a complex and challenging benchmark named DocStructBench. Extensive experiments on downstream datasets demonstrate that DocLayout-YOLO excels in both speed and accuracy. Code, data, and models are available at https://github.com/opendatalab/DocLayout-YOLO.
arxiv情報
著者 | Zhiyuan Zhao,Hengrui Kang,Bin Wang,Conghui He |
発行日 | 2024-10-16 14:50:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google