TabIQA: Table Questions Answering on Business Document Images

要約

ビジネス ドキュメントからの質問に答える表には、表形式の構造、ドキュメント間の参照、および単純な検索クエリを超えた追加の数値計算を理解する必要がある多くの課題があります。
このホワイト ペーパーでは、TabIQA という名前の新しいパイプラインを紹介し、ビジネス ドキュメントの画像に関する質問に答えます。
TabIQA は、最先端の深層学習技術を組み合わせて、1) 画像から表のコンテンツと構造情報を抽出し、2) 数値データ、テキストベースの情報、および構造化された表からの複雑なクエリに関連するさまざまな質問に答えます。
VQAonBD 2023 データセットの評価結果は、テーブル関連の質問への回答において有望なパフォーマンスを達成する上での TabIQA の有効性を示しています。
TabIQA リポジトリは、https://github.com/phucty/itabqa で入手できます。

要約(オリジナル)

Table answering questions from business documents has many challenges that require understanding tabular structures, cross-document referencing, and additional numeric computations beyond simple search queries. This paper introduces a novel pipeline, named TabIQA, to answer questions about business document images. TabIQA combines state-of-the-art deep learning techniques 1) to extract table content and structural information from images and 2) to answer various questions related to numerical data, text-based information, and complex queries from structured tables. The evaluation results on VQAonBD 2023 dataset demonstrate the effectiveness of TabIQA in achieving promising performance in answering table-related questions. The TabIQA repository is available at https://github.com/phucty/itabqa.

arxiv情報

著者 Phuc Nguyen,Nam Tuan Ly,Hideaki Takeda,Atsuhiro Takasu
発行日 2023-03-27 06:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク