ClusterTabNet: Supervised clustering method for table detection and table structure recognition

要約

文書内の単語をクラスタリングする新しい深層学習ベースの方法を提案します。この方法を適用して、OCR 出力から表を検出および認識します。
テーブル構造をボトムアップで単語のペア (同じ行、列、ヘッダー、および同じテーブルに属する) 間の関係のグラフとして解釈し、トランスフォーマー エンコーダー モデルを使用してその隣接行列を予測します。
PubTables-1M データセット、PubTabNet および FinTabNet データセットに対するメソッドのパフォーマンスを示します。
DETR や Faster R-CNN などの現在の最先端の検出方法と比較して、私たちの方法は同等以上の精度を達成しながら、必要なモデルは大幅に小さくなります。

要約(オリジナル)

We present a novel deep-learning-based method to cluster words in documents which we apply to detect and recognize tables given the OCR output. We interpret table structure bottom-up as a graph of relations between pairs of words (belonging to the same row, column, header, as well as to the same table) and use a transformer encoder model to predict its adjacency matrix. We demonstrate the performance of our method on the PubTables-1M dataset as well as PubTabNet and FinTabNet datasets. Compared to the current state-of-the-art detection methods such as DETR and Faster R-CNN, our method achieves similar or better accuracy, while requiring a significantly smaller model.

arxiv情報

著者 Marek Polewczyk,Marco Spinaci
発行日 2024-02-12 09:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク