Rethinking Detection Based Table Structure Recognition for Visually Rich Document Images

要約

表構造認識 (TSR) は、非構造化表画像を HTML シーケンスなどの構造化形式に変換して、これらの表をさらに処理できる ChatGPT などのテキストのみのモデルを作成することを目的とした、広く議論されているタスクです。
ソリューションの 1 つのタイプは、検出モデルを使用して列や行などのテーブル コンポーネントを検出し、ルールベースの後処理方法を適用して検出結果を HTML シーケンスに変換することです。
ただし、既存の検出ベースのモデルは、通常、TEDS などのセルレベルの TSR メトリクスに関する他のタイプのソリューションほどパフォーマンスを発揮できず、TSR タスクでこれらのモデルのパフォーマンスを制限する根本的な理由も十分に調査されていません。
したがって、既存の検出ベースのモデルを包括的に再検討し、不適切な問題定義、検出と TSR メトリクスの不一致の問題、検出モデルの特性、局所的および長期的な影響など、これらのモデルのパフォーマンスを妨げる根本的な理由を調査します。
範囲特徴の抽出。
分析と発見に基づいて、簡単な方法を適用して、典型的な 2 段階検出モデルである Cascade R-CNN を TSR タスクに合わせて調整します。
実験結果は、カスタマイズされた Cascade R-CNN ベースのモデルが、構造のみの TEDS に関して FinTabNet データセット上でベースの Cascade R-CNN モデルを 16.35\% 改善し、他の種類の最先端の手法を上回るパフォーマンスを示すことを示しています。
これは、私たちの調査結果が検出ベースの TSR モデルを改善するためのガイドラインとなり得ること、および純粋に検出ベースのソリューションが、グラフベースや画像からシーケンスのソリューションなど、他のタイプのソリューションと競合できることを示しています。

要約(オリジナル)

Table Structure Recognition (TSR) is a widely discussed task aiming at transforming unstructured table images into structured formats, such as HTML sequences, to make text-only models, such as ChatGPT, that can further process these tables. One type of solution is using detection models to detect table components, such as columns and rows, then applying a rule-based post-processing method to convert detection results into HTML sequences. However, existing detection-based models usually cannot perform as well as other types of solutions regarding cell-level TSR metrics, such as TEDS, and the underlying reasons limiting the performance of these models on the TSR task are also not well-explored. Therefore, we revisit existing detection-based models comprehensively and explore the underlying reasons hindering these models’ performance, including the improper problem definition, the mismatch issue of detection and TSR metrics, the characteristics of detection models, and the impact of local and long-range features extraction. Based on our analysis and findings, we apply simple methods to tailor a typical two-stage detection model, Cascade R-CNN, for the TSR task. The experimental results show that the tailored Cascade R-CNN based model can improve the base Cascade R-CNN model by 16.35\% on the FinTabNet dataset regarding the structure-only TEDS, outperforming other types of state-of-the-art methods, demonstrating that our findings can be a guideline for improving detection-based TSR models and that a purely detection-based solution is competitive with other types of solutions, such as graph-based and image-to-sequence solutions.

arxiv情報

著者 Bin Xiao,Murat Simsek,Burak Kantarci,Ala Abu Alkheir
発行日 2024-01-10 15:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク