Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs

要約

タイトル:Doc2SoarGraph:セマンティック志向の階層グラフを用いた視覚的に豊かな表とテキスト文書の離散的推論

要約:

– 最近の2年間で、表-テキスト文書(たとえば財務報告書)の離散的推論に注目が集まっています。
– 現存する研究は、ほとんどが人手によるドキュメントページの選択と変換により、構造化された表や段落を作り、実践的な適用が妨げられることが多い。
– 本研究では、TAT-DQA形式のより現実的な問題設定を探求し、視覚的に豊かな表-テキスト文書に関する質問に答える。
– 具体的には、Semantic-oriented hierarchical Graph構造を用いて、与えられた質問やドキュメントの異なる要素(量、日付など)の違いや関連性を利用し、強化された離散的推論能力を持つ新しいDoc2SoarGraphフレームワークを提案する。
– TAT-DQAデータセットで広範な実験を行い、結果は、テストセットにおいてExact Match(EM)スコアとF1スコアの両方に関して最高のベースラインモデルよりもそれぞれ17.73%と16.91%高いパフォーマンスを示し、新しい最高水準を達成していることを示す。

要約(オリジナル)

Discrete reasoning over table-text documents (e.g., financial reports) gains increasing attention in recent two years. Existing works mostly simplify this challenge by manually selecting and transforming document pages to structured tables and paragraphs, hindering their practical application. In this work, we explore a more realistic problem setting in the form of TAT-DQA, i.e. to answer the question over a visually-rich table-text document. Specifically, we propose a novel Doc2SoarGraph framework with enhanced discrete reasoning capability by harnessing the differences and correlations among different elements (e.g., quantities, dates) of the given question and document with Semantic-oriented hierarchical Graph structures. We conduct extensive experiments on TAT-DQA dataset, and the results show that our proposed framework outperforms the best baseline model by 17.73% and 16.91% in terms of Exact Match (EM) and F1 score respectively on the test set, achieving the new state-of-the-art.

arxiv情報

著者 Fengbin Zhu,Chao Wang,Fuli Feng,Zifeng Ren,Moxin Li,Tat-Seng Chua
発行日 2023-05-04 10:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク