Optimized Table Tokenization for Table Structure Recognition

要約

タイトル:表構造認識のための最適化されたテーブルトークナイゼーション

要約:
– ドキュメントから表を抽出することは、どのドキュメント変換パイプラインにおいても重要なタスクである。
– 最近、Transformer-basedモデルは、Image-to-Markup-Sequence(Im2Seq)アプローチを使用して、印象的な精度で表構造を認識することができることが示されている。
– このモデルは、テーブルの画像のみを受け取り、テーブルの構造を表すトークン(例えばHTML、LaTeXなど)のシーケンスを予測する。
– テーブル構造のトークン表現は、Im2Seqモデルの精度と実行時パフォーマンスに大きな影響を与えるため、本論文ではテーブル構造表現の最適化方法について調査を行う。
– 新しい、最適化された表構造言語(OTSL)を提案し、最小限の語彙と特定のルールに基づく表現をする。
– OTSLの利点は、トークン数を5に減らし(HTMLは28+が必要)、平均的にHTMLの半分のシーケンス長に短縮することができる。
– その結果、モデルの精度が大幅に向上し、HTMLベースのモデルと比較して推論時間を半分に短縮できる。
– また、予測された表の構造は常に構文的に正しいため、後処理の必要性がなくなる。

要約(オリジナル)

Extracting tables from documents is a crucial task in any document conversion pipeline. Recently, transformer-based models have demonstrated that table-structure can be recognized with impressive accuracy using Image-to-Markup-Sequence (Im2Seq) approaches. Taking only the image of a table, such models predict a sequence of tokens (e.g. in HTML, LaTeX) which represent the structure of the table. Since the token representation of the table structure has a significant impact on the accuracy and run-time performance of any Im2Seq model, we investigate in this paper how table-structure representation can be optimised. We propose a new, optimised table-structure language (OTSL) with a minimized vocabulary and specific rules. The benefits of OTSL are that it reduces the number of tokens to 5 (HTML needs 28+) and shortens the sequence length to half of HTML on average. Consequently, model accuracy improves significantly, inference time is halved compared to HTML-based models, and the predicted table structures are always syntactically correct. This in turn eliminates most post-processing needs.

arxiv情報

著者 Maksym Lysak,Ahmed Nassar,Nikolaos Livathinos,Christoph Auer,Peter Staar
発行日 2023-05-05 09:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク