RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization

要約

大規模なグラウンドトゥルース データセットと深層学習技術の最近の進歩は、レイアウト検出に役立ちます。
ただし、これらのデータセットのレイアウトの多様性には制限があるため、これらのデータセットでのトレーニングには、かなりの数のアノテーション付きインスタンスが必要となり、費用も時間もかかります。
その結果、ソース ドメインとターゲット ドメインの違いが、これらのモデルがどの程度機能するかに大きな影響を与える可能性があります。
この問題を解決するために、少量のラベル付きデータを使用してモデルをターゲット ドメインに調整するドメイン適応アプローチが開発されました。
この研究では、レイアウト要素の空間的位置、範囲、タイプを示す自動的に割り当てられたラベルで強化された、RanLayNet と呼ばれる合成ドキュメント データセットを導入しました。
この取り組みの主な目的は、堅牢性と多様なドキュメント形式への適応性を備えたモデルをトレーニングできる汎用性の高いデータセットを開発することです。
実証実験を通じて、データセットでトレーニングされた詳細なレイアウト識別モデルは、実際のドキュメントのみでトレーニングされたモデルと比較してパフォーマンスが向上することを実証しました。
さらに、Doclaynet データセット上の PubLayNet と IIIT-AR-13K データセットの両方を使用して推論モデルを微調整することにより、比較分析を実行します。
私たちの調査結果は、TABLE クラスの科学文書ドメインで 0.398 および 0.588 mAP95 スコアを達成するなどのタスクには、データセットで強化されたモデルが最適であることを強調しています。

要約(オリジナル)

Large ground-truth datasets and recent advances in deep learning techniques have been useful for layout detection. However, because of the restricted layout diversity of these datasets, training on them requires a sizable number of annotated instances, which is both expensive and time-consuming. As a result, differences between the source and target domains may significantly impact how well these models function. To solve this problem, domain adaptation approaches have been developed that use a small quantity of labeled data to adjust the model to the target domain. In this research, we introduced a synthetic document dataset called RanLayNet, enriched with automatically assigned labels denoting spatial positions, ranges, and types of layout elements. The primary aim of this endeavor is to develop a versatile dataset capable of training models with robustness and adaptability to diverse document formats. Through empirical experimentation, we demonstrate that a deep layout identification model trained on our dataset exhibits enhanced performance compared to a model trained solely on actual documents. Moreover, we conduct a comparative analysis by fine-tuning inference models using both PubLayNet and IIIT-AR-13K datasets on the Doclaynet dataset. Our findings emphasize that models enriched with our dataset are optimal for tasks such as achieving 0.398 and 0.588 mAP95 score in the scientific document domain for the TABLE class.

arxiv情報

著者 Avinash Anand,Raj Jaiswal,Mohit Gupta,Siddhesh S Bangar,Pijush Bhuyan,Naman Lal,Rajeev Singh,Ritika Jha,Rajiv Ratn Shah,Shin’ichi Satoh
発行日 2024-04-15 07:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク