Robust Table Structure Recognition with Dynamic Queries Enhanced Detection Transformer

要約

我々は、さまざまなテーブル画像から幾何学的歪みを伴う複雑なテーブルの構造を確実に認識する、TSRFormer と呼ばれる新しいテーブル構造認識 (TSR) アプローチを紹介します。
以前の方法とは異なり、我々はテーブル分割線予測を画像セグメンテーション問題ではなく線回帰問題として定式化し、テーブル画像から分割線を予測するためにDQ-DETRと呼ばれる新しい2段階の動的クエリ強化DETRベースの分割線回帰アプローチを提案します。
直接。
Vallina DETR と比較して、2 段階の DETR フレームワークが分離線予測タスクで効率的かつ効果的に機能するように、DQ-DETR に 3 つの改善点を提案します。 1) 単一行のクエリを分離可能なクエリに分離するための、ダイナミック クエリと呼ばれる新しいクエリ設計
回帰タスクの位置特定精度を直感的に向上させることができるポイント クエリ。
2) 動的クエリベースの累進直線回帰アプローチにより、直線上の点を漸進的に回帰し、歪んだテーブルの位置特定精度をさらに向上させます。
3) DETR の収束が遅い問題を解決するための、事前に強化されたマッチング戦略。
分離線の予測後、単純なリレーション ネットワーク ベースのセル結合モジュールを使用して、スパニング セルが復元されます。
これらの新しい技術により、当社の TSRFormer は、SciTSR、PubTabNet、WTW、FinTabNet を含むいくつかのベンチマーク データセットで最先端のパフォーマンスを達成します。
さらに、より困難な現実世界の社内データセット上で、複雑な構造、境界のないセル、大きな空白スペース、空のセルや複数のセルにまたがるセル、歪んだ形状やさらには湾曲した形状を含むテーブルに対するアプローチの堅牢性と高い位置特定精度を検証しました。

要約(オリジナル)

We present a new table structure recognition (TSR) approach, called TSRFormer, to robustly recognizing the structures of complex tables with geometrical distortions from various table images. Unlike previous methods, we formulate table separation line prediction as a line regression problem instead of an image segmentation problem and propose a new two-stage dynamic queries enhanced DETR based separation line regression approach, named DQ-DETR, to predict separation lines from table images directly. Compared to Vallina DETR, we propose three improvements in DQ-DETR to make the two-stage DETR framework work efficiently and effectively for the separation line prediction task: 1) A new query design, named Dynamic Query, to decouple single line query into separable point queries which could intuitively improve the localization accuracy for regression tasks; 2) A dynamic queries based progressive line regression approach to progressively regressing points on the line which further enhances localization accuracy for distorted tables; 3) A prior-enhanced matching strategy to solve the slow convergence issue of DETR. After separation line prediction, a simple relation network based cell merging module is used to recover spanning cells. With these new techniques, our TSRFormer achieves state-of-the-art performance on several benchmark datasets, including SciTSR, PubTabNet, WTW and FinTabNet. Furthermore, we have validated the robustness and high localization accuracy of our approach to tables with complex structures, borderless cells, large blank spaces, empty or spanning cells as well as distorted or even curved shapes on a more challenging real-world in-house dataset.

arxiv情報

著者 Jiawei Wang,Weihong Lin,Chixiang Ma,Mingze Li,Zheng Sun,Lei Sun,Qiang Huo
発行日 2023-07-12 09:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク