Towards Complex Document Understanding By Discrete Reasoning

要約

文書視覚的質問応答(VQA)は、自然言語処理とコンピュータビジョンの両方の新しい研究テーマである、視覚的に豊かな文書を理解し、自然言語の質問に答えることを目的としている。本論文では、TAT-QAデータセットを拡張し、半構造化表と非構造化テキストからなる3,067ページの文書と、16,558組の質問-回答からなるTAT-DQAという新しい文書VQAデータセットを提案する。これらの文書は実世界の財務報告書から抽出され、多くの数字を含んでいるため、このデータセットの質問に答えるには離散的な推論能力が要求される。TAT-DQAをベースに、テキスト、レイアウト、画像などのマルチモダリティ情報を考慮したMHSTという新しいモデルを開発し、異なるタイプの質問に対して、抽出や推論といった対応する戦略を用いて知的な対応を行う。広範な実験により、MHSTモデルはベースライン手法を著しく上回り、その有効性を実証している。しかし、その性能はまだ専門家である人間の性能に大きく遅れをとっている。我々は、この新しいTAT-DQAデータセットが、視覚と言語を組み合わせた視覚的に豊かな文書の深い理解に関する研究、特に離散的な推論を必要とするシナリオの研究を促進することを期待している。また、提案したモデルが、今後、研究者がより高度な文書VQAモデルを設計するための刺激となることを期待しています。本データセットは、非商用利用を目的として、https://nextplusplus.github.io/TAT-DQA/ で公開される予定です。

要約(オリジナル)

Document Visual Question Answering (VQA) aims to understand visually-rich documents to answer questions in natural language, which is an emerging research topic for both Natural Language Processing and Computer Vision. In this work, we introduce a new Document VQA dataset, named TAT-DQA, which consists of 3,067 document pages comprising semi-structured table(s) and unstructured text as well as 16,558 question-answer pairs by extending the TAT-QA dataset. These documents are sampled from real-world financial reports and contain lots of numbers, which means discrete reasoning capability is demanded to answer questions on this dataset. Based on TAT-DQA, we further develop a novel model named MHST that takes into account the information in multi-modalities, including text, layout and visual image, to intelligently address different types of questions with corresponding strategies, i.e., extraction or reasoning. Extensive experiments show that the MHST model significantly outperforms the baseline methods, demonstrating its effectiveness. However, the performance still lags far behind that of expert humans. We expect that our new TAT-DQA dataset would facilitate the research on deep understanding of visually-rich documents combining vision and language, especially for scenarios that require discrete reasoning. Also, we hope the proposed model would inspire researchers to design more advanced Document VQA models in future. Our dataset will be publicly available for non-commercial use at https://nextplusplus.github.io/TAT-DQA/.

arxiv情報

著者 Fengbin Zhu,Wenqiang Lei,Fuli Feng,Chao Wang,Haozhou Zhang,Tat-Seng Chua
発行日 2022-09-07 14:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク