Rethinking Detection Based Table Structure Recognition for Visually Rich Documents

要約

表構造認識(TSR)は、構造化されていない表画像をHTMLシーケンスのような構造化フォーマットに変換することを目的としている。一般的なソリューションの1つは、列や行といったテーブルの構成要素を検出するために検出モデルを使用し、検出結果をHTMLシーケンスに変換するためにルールベースの後処理方法を適用することである。しかし、既存の検出ベースの研究には、しばしば次のような限界がある。第一に、これらの研究は通常、検出性能の向上に注意を払うが、これは必ずしもTEDSのようなセルレベルのメトリクスに関する性能向上にはつながらない。第二に、いくつかの解決策は問題を単純化しすぎており、重要な情報を見逃している可能性がある。最後に、いくつかの研究は、他のタイプの解と同程度の情報を提供するために、より多くの構成要素を検出するように問題を定義したにもかかわらず、これらの研究は、行、投影行ヘッダ、列ヘッダが同一のバウンディングボックスを共有することができるため、この問題定義がマルチラベル検出であるという事実を無視している。さらに、2段検出モデルとトランスフォーマベースの検出モデルの間には、COCOメトリクスの性能は同等であっても、構造のみのTEDSに関しては性能差があることが多い。そこで我々は、既存の検出ベースのソリューションの限界を再検討し、2段階検出モデルとトランスフォーマベースの検出モデルを比較し、TSRタスクのための2段階検出モデルの成功のための重要な設計面を特定する。カスケードR-CNNモデルのこれらの側面を改善するために簡単な方法を適用し、最先端の性能を達成し、SciTSR、FinTabNet、PubTables1Mデータセット上の構造のみのTEDSに関して、ベースラインのカスケードR-CNNモデルを19.32%、11.56%、14.77%改善した。

要約(オリジナル)

Table Structure Recognition (TSR) aims at transforming unstructured table images into structured formats, such as HTML sequences. One type of popular solution is using detection models to detect components of a table, such as columns and rows, then applying a rule-based post-processing method to convert detection results into HTML sequences. However, existing detection-based studies often have the following limitations. First, these studies usually pay more attention to improving the detection performance, which does not necessarily lead to better performance regarding cell-level metrics, such as TEDS. Second, some solutions over-simplify the problem and can miss some critical information. Lastly, even though some studies defined the problem to detect more components to provide as much information as other types of solutions, these studies ignore the fact this problem definition is a multi-label detection because row, projected row header and column header can share identical bounding boxes. Besides, there is often a performance gap between two-stage and transformer-based detection models regarding the structure-only TEDS, even though they have similar performance regarding the COCO metrics. Therefore, we revisit the limitations of existing detection-based solutions, compare two-stage and transformer-based detection models, and identify the key design aspects for the success of a two-stage detection model for the TSR task, including the multi-class problem definition, the aspect ratio for anchor box generation, and the feature generation of the backbone network. We applied simple methods to improve these aspects of the Cascade R-CNN model, achieved state-of-the-art performance, and improved the baseline Cascade R-CNN model by 19.32%, 11.56% and 14.77% regarding the structure-only TEDS on SciTSR, FinTabNet, and PubTables1M datasets.

arxiv情報

著者 Bin Xiao,Murat Simsek,Burak Kantarci,Ala Abu Alkheir
発行日 2023-12-01 16:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IR パーマリンク