TSRFormer: Table Structure Recognition with Transformers

要約

我々は、様々なテーブル画像から幾何学的な歪みを持つ複雑なテーブルの構造を頑健に認識する、TSRFormerと呼ばれる新しいテーブル構造認識(TSR)アプローチを提案する。従来の手法とは異なり、我々はテーブル分離線予測を画像分割問題ではなく線回帰問題として定式化し、テーブル画像から分離線を直接予測するために、DETRに基づく新しい2段階分離線予測手法(SepRETR:arator \textbf{RE}gression )を提案する。この2段階のDETRフレームワークを分離線予測タスクに対して効率的かつ効果的に機能させるために、我々は2つの改良を提案する。1) DETRの遅い収束問題を解決するための事前拡張マッチング戦略、2) 高解像度畳み込み特徴マップから直接特徴を抽出する新しい交差注目モジュールにより、低い計算コストで高い局在精度が達成されるようにする。分離線予測後、単純な関係ネットワークに基づくセル結合モジュールにより、スパニングセルを復元する。これらの新しい技術により、我々のTSRFormerはSciTSR、PubTabNet、WTWなどの複数のベンチマークデータセットにおいて、最先端の性能を達成した。さらに、より困難な実世界の社内データセットにおいて、複雑な構造の表、境界のないセル、大きな空白、空白セルやスパンセル、歪んだ形状や曲がった形状に対する我々のアプローチの頑健性を検証した。

要約(オリジナル)

We present a new table structure recognition (TSR) approach, called TSRFormer, to robustly recognizing the structures of complex tables with geometrical distortions from various table images. Unlike previous methods, we formulate table separation line prediction as a line regression problem instead of an image segmentation problem and propose a new two-stage DETR based separator prediction approach, dubbed \textbf{Sep}arator \textbf{RE}gression \textbf{TR}ansformer (SepRETR), to predict separation lines from table images directly. To make the two-stage DETR framework work efficiently and effectively for the separation line prediction task, we propose two improvements: 1) A prior-enhanced matching strategy to solve the slow convergence issue of DETR; 2) A new cross attention module to sample features from a high-resolution convolutional feature map directly so that high localization accuracy is achieved with low computational cost. After separation line prediction, a simple relation network based cell merging module is used to recover spanning cells. With these new techniques, our TSRFormer achieves state-of-the-art performance on several benchmark datasets, including SciTSR, PubTabNet and WTW. Furthermore, we have validated the robustness of our approach to tables with complex structures, borderless cells, large blank spaces, empty or spanning cells as well as distorted or even curved shapes on a more challenging real-world in-house dataset.

arxiv情報

著者 Weihong Lin,Zheng Sun,Chixiang Ma,Mingze Li,Jiawei Wang,Lei Sun,Qiang Huo
発行日 2022-08-09 17:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク