End-to-End Semi-Supervised approach with Modulated Object Queries for Table Detection in Documents

要約

文書分析において極めて重要なタスクである表の検出は、文書画像内の表を正確に認識して位置を特定することを目的としています。
ディープラーニングはこの分野で目覚ましい進歩を示していますが、通常、熟練したトレーニングにはラベル付きデータの広範なデータセットが必要です。
現在の CNN ベースの半教師ありテーブル検出アプローチは、検出プロセスでアンカー生成プロセスと非最大抑制 (NMS) を使用するため、トレーニング効率が制限されます。
一方、トランスベースの半教師あり技術では、ノイズの多い疑似ラベルを提供する 1 対 1 の一致戦略が採用されており、全体の効率が制限されています。
この研究では、革新的な変圧器ベースの半教師ありテーブル検出器を紹介します。
1 対 1 および 1 対多の割り当て手法を組み合わせた新しいマッチング戦略により、擬似ラベルの品質が向上します。
このアプローチにより、初期段階でのトレーニング効率が大幅に向上し、さらなるトレーニングのための優れた疑似ラベルが保証されます。
当社の半教師ありアプローチは、PubLayNet、ICADR-19、TableBank などのベンチマーク データセットで包括的に評価されます。
TableBank (ワード) および 30% のラベル データを含む PubLaynet で 95.7% および 97.9% の mAP という新しい最先端の結果が得られ、以前の半教師ありテーブル検出アプローチと比較して 7.4 ポイントおよび 7.6 ポイントの改善を示しています。
それぞれ。
この結果は、我々の半教師ありアプローチの優位性を明らかに示しており、既存のすべての最先端の手法を大幅に上回っています。
この研究は、半教師ありテーブル検出方法の大幅な進歩を表し、実際の文書分析タスクにより効率的かつ正確なソリューションを提供します。

要約(オリジナル)

Table detection, a pivotal task in document analysis, aims to precisely recognize and locate tables within document images. Although deep learning has shown remarkable progress in this realm, it typically requires an extensive dataset of labeled data for proficient training. Current CNN-based semi-supervised table detection approaches use the anchor generation process and Non-Maximum Suppression (NMS) in their detection process, limiting training efficiency. Meanwhile, transformer-based semi-supervised techniques adopted a one-to-one match strategy that provides noisy pseudo-labels, limiting overall efficiency. This study presents an innovative transformer-based semi-supervised table detector. It improves the quality of pseudo-labels through a novel matching strategy combining one-to-one and one-to-many assignment techniques. This approach significantly enhances training efficiency during the early stages, ensuring superior pseudo-labels for further training. Our semi-supervised approach is comprehensively evaluated on benchmark datasets, including PubLayNet, ICADR-19, and TableBank. It achieves new state-of-the-art results, with a mAP of 95.7% and 97.9% on TableBank (word) and PubLaynet with 30% label data, marking a 7.4 and 7.6 point improvement over previous semi-supervised table detection approach, respectively. The results clearly show the superiority of our semi-supervised approach, surpassing all existing state-of-the-art methods by substantial margins. This research represents a significant advancement in semi-supervised table detection methods, offering a more efficient and accurate solution for practical document analysis tasks.

arxiv情報

著者 Iqraa Ehsan,Tahira Shehzadi,Didier Stricker,Muhammad Zeshan Afzal
発行日 2024-05-08 11:24:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク