High-Performance Transformers for Table Structure Recognition Need Early Convolutions

要約

表構造認識 (TSR) は、表形式の画像を機械可読形式に変換することを目的としており、ビジュアル エンコーダーが画像の特徴を抽出し、テキスト デコーダーが表を表すトークンを生成します。
既存のアプローチでは、ビジュアル エンコーダーには古典的な畳み込みニューラル ネットワーク (CNN) バックボーンが使用され、テキスト デコーダーにはトランスフォーマーが使用されます。
ただし、このハイブリッド CNN-Transformer アーキテクチャでは、モデル パラメーター全体のほぼ半分を占める複雑なビジュアル エンコーダーが導入され、トレーニングと推論の速度が大幅に低下し、TSR での自己教師あり学習の可能性が妨げられます。
この作業では、表現力を犠牲にすることなく、TSR 用の軽量ビジュアル エンコーダを設計します。
私たちは、畳み込みステムが、はるかに単純なモデルを使用して、古典的な CNN バックボーンのパフォーマンスに匹敵できることを発見しました。
畳み込みステムは、より高い受容野 (RF) 比とより長いシーケンス長という、高性能 TSR の 2 つの重要な要素の間で最適なバランスをとります。
これにより、テーブルの適切な部分を「参照」し、後続のトランスフォーマのために十分なコンテキスト長内で複雑なテーブル構造を「保存」することができます。
私たちは再現可能なアブレーション研究を実施し、透明性を高め、イノベーションを刺激し、表が表現学習の有望なモダリティであるため、私たちの領域での公正な比較を促進するために https://github.com/poloclub/tsr-convstem でコードをオープンソースしました。

要約(オリジナル)

Table structure recognition (TSR) aims to convert tabular images into a machine-readable format, where a visual encoder extracts image features and a textual decoder generates table-representing tokens. Existing approaches use classic convolutional neural network (CNN) backbones for the visual encoder and transformers for the textual decoder. However, this hybrid CNN-Transformer architecture introduces a complex visual encoder that accounts for nearly half of the total model parameters, markedly reduces both training and inference speed, and hinders the potential for self-supervised learning in TSR. In this work, we design a lightweight visual encoder for TSR without sacrificing expressive power. We discover that a convolutional stem can match classic CNN backbone performance, with a much simpler model. The convolutional stem strikes an optimal balance between two crucial factors for high-performance TSR: a higher receptive field (RF) ratio and a longer sequence length. This allows it to ‘see’ an appropriate portion of the table and ‘store’ the complex table structure within sufficient context length for the subsequent transformer. We conducted reproducible ablation studies and open-sourced our code at https://github.com/poloclub/tsr-convstem to enhance transparency, inspire innovations, and facilitate fair comparisons in our domain as tables are a promising modality for representation learning.

arxiv情報

著者 ShengYun Peng,Seongmin Lee,Xiaojing Wang,Rajarajeswari Balasubramaniyan,Duen Horng Chau
発行日 2023-11-09 18:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク