GridFormer: Towards Accurate Table Structure Recognition via Grid Prediction

要約

すべてのテーブルはグリッドとして表すことができます。
この観察に基づいて、グリッドの頂点とエッジを予測することで制約のないテーブル構造を解釈するための新しいアプローチである GridFormer を提案します。
まず、MXN グリッドの形式で柔軟なテーブル表現を提案します。
この表現では、グリッドの頂点とエッジにテーブルの位置情報と隣接情報が格納されます。
次に、このグリッドの多目的情報を 1 回のショットで効率的に予測する DETR スタイルのテーブル構造認識装置を導入します。
具体的には、学習された行クエリと列クエリのセットが与えられると、認識エンジンは対応する行と列の頂点とエッジの情報を直接出力します。
有線、無線、マルチマージセル、指向性テーブル、歪んだテーブルを含む 5 つの困難なベンチマークに関する広範な実験により、他の方法と比較してモデルの競争力のあるパフォーマンスが実証されました。

要約(オリジナル)

All tables can be represented as grids. Based on this observation, we propose GridFormer, a novel approach for interpreting unconstrained table structures by predicting the vertex and edge of a grid. First, we propose a flexible table representation in the form of an MXN grid. In this representation, the vertexes and edges of the grid store the localization and adjacency information of the table. Then, we introduce a DETR-style table structure recognizer to efficiently predict this multi-objective information of the grid in a single shot. Specifically, given a set of learned row and column queries, the recognizer directly outputs the vertexes and edges information of the corresponding rows and columns. Extensive experiments on five challenging benchmarks which include wired, wireless, multi-merge-cell, oriented, and distorted tables demonstrate the competitive performance of our model over other methods.

arxiv情報

著者 Pengyuan Lyu,Weihong Ma,Hongyi Wang,Yuechen Yu,Chengquan Zhang,Kun Yao,Yang Xue,Jingdong Wang
発行日 2023-09-26 14:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク