Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs

要約

【タイトル】Doc2SoarGraph:視覚豊かな表 ― テキスト文書における意味指向階層グラフを用いた離散推論

【要約】

– 表 – テキスト文書における離散推論は、近年ますます注目されている。
– 既存の研究では、ドキュメントページを構造化された表や段落に手動で選択して変換することで、この問題を単純化しているが、これは実用的な応用に障害を生じさせる。
– 本研究では、視覚的に豊かな表 ― テキスト文書におけるTAT-DQA形式の問題に対応する、より現実的な問題設定を探索する。
– 具体的には、Semantic-oriented階層グラフ構造を用いて、与えられた問題や文書の間の異なる要素(数量、日付など)の違いや相関関係を利用して、より高度な離散推論能力を持つDoc2SoarGraphフレームワークを提案する。
– TAT-DQAデータセットで、広範な実験を行い、結果は、テストセットでExact Match(EM)およびF1スコアについて、最高のベースラインモデルをそれぞれ17.73%と16.91%上回り、新しい最先端に到達したことを示している。

要約(オリジナル)

Discrete reasoning over table-text documents (e.g., financial reports) gains increasing attention in recent two years. Existing works mostly simplify this challenge by manually selecting and transforming document pages to structured tables and paragraphs, hindering their practical application. In this work, we explore a more realistic problem setting in the form of TAT-DQA, i.e. to answer the question over a visually-rich table-text document. Specifically, we propose a novel Doc2SoarGraph framework with enhanced discrete reasoning capability by harnessing the differences and correlations among different elements (e.g., quantities, dates) of the given question and document with Semantic-oriented hierarchical Graph structures. We conduct extensive experiments on TAT-DQA dataset, and the results show that our proposed framework outperforms the best baseline model by 17.73% and 16.91% in terms of Exact Match (EM) and F1 score respectively on the test set, achieving the new state-of-the-art.

arxiv情報

著者 Fengbin Zhu,Chao Wang,Fuli Feng,Zifeng Ren,Moxin Li,Tat-Seng Chua
発行日 2023-05-03 07:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク