Tables to LaTeX: structure and content extraction from scientific tables

要約

科学文書には、重要な情報を簡潔にまとめた表が含まれています。
PDF 研究ドキュメントに埋め込まれた表から構造とコンテンツを抽出することは、複数のセルにまたがるなどの視覚的機能や、数学記号や方程式などのコンテンツ機能が存在するため、非常に困難な作業です。
ほとんどの既存のテーブル構造識別方法は、これらのアカデミック ライティング機能を無視する傾向があります。
この論文では、トランスフォーマーベースの言語モデリングパラダイムを科学的なテーブル構造とコンテンツ抽出に適応させます。
具体的には、提案されたモデルは、表形式の画像を対応する LaTeX ソース コードに変換します。
全体として、現在の最先端のベースラインよりも優れており、テーブル構造とコンテンツ抽出でそれぞれ 70.35% と 49.69% の正確な一致精度を達成しています。
さらに分析すると、提案されたモデルが行数と列数、英数字、LaTeX トークン、および記号を効率的に識別することが実証されています。

要約(オリジナル)

Scientific documents contain tables that list important information in a concise fashion. Structure and content extraction from tables embedded within PDF research documents is a very challenging task due to the existence of visual features like spanning cells and content features like mathematical symbols and equations. Most existing table structure identification methods tend to ignore these academic writing features. In this paper, we adapt the transformer-based language modeling paradigm for scientific table structure and content extraction. Specifically, the proposed model converts a tabular image to its corresponding LaTeX source code. Overall, we outperform the current state-of-the-art baselines and achieve an exact match accuracy of 70.35 and 49.69% on table structure and content extraction, respectively. Further analysis demonstrates that the proposed models efficiently identify the number of rows and columns, the alphanumeric characters, the LaTeX tokens, and symbols.

arxiv情報

著者 Pratik Kayal,Mrinal Anand,Harsh Desai,Mayank Singh
発行日 2022-10-31 12:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR パーマリンク