Enhancing Question Answering on Charts Through Effective Pre-training Tasks

要約

文書を完全に理解するには、テキスト情報を使用するだけでは十分ではありません。
レイアウトやグラフなどの視覚的な手がかりを理解することも必要です。
文書を理解するための現在の最先端のアプローチ (OCR ベースと OCR なしの両方) はうまく機能していますが、その機能と限界についての徹底的な分析はまだ行われていません。
したがって、この作業では、現在の VisualQA モデルをチャートやプロットに適用した場合の制限に対処します。
最先端のモデルの欠点を調査するために、ChartQA をケーススタディとして使用して、包括的な動作分析を実施します。
私たちの調査結果は、既存のモデルは、数値情報だけでなく、グラフの構造的および視覚的なコンテキストに関連する質問への回答において、特にパフォーマンスが低いことを示しています。
これらの問題に対処するために、構造的視覚的知識と数値的質問の理解の両方の観点から既存のモデルを強制する 3 つの簡単な事前トレーニング タスクを提案します。
3 つのチャート データセット (抽出質問データセットと抽象質問データセットの両方) で事前トレーニングされたモデル (MatCha-v2 と呼ばれる) を評価し、ベースライン モデルと比較して平均 1.7% の改善が達成されることを観察しました。

要約(オリジナル)

To completely understand a document, the use of textual information is not enough. Understanding visual cues, such as layouts and charts, is also required. While the current state-of-the-art approaches for document understanding (both OCR-based and OCR-free) work well, a thorough analysis of their capabilities and limitations has not yet been performed. Therefore, in this work, we addresses the limitation of current VisualQA models when applied to charts and plots. To investigate shortcomings of the state-of-the-art models, we conduct a comprehensive behavioral analysis, using ChartQA as a case study. Our findings indicate that existing models particularly underperform in answering questions related to the chart’s structural and visual context, as well as numerical information. To address these issues, we propose three simple pre-training tasks that enforce the existing model in terms of both structural-visual knowledge, as well as its understanding of numerical questions. We evaluate our pre-trained model (called MatCha-v2) on three chart datasets – both extractive and abstractive question datasets – and observe that it achieves an average improvement of 1.7% over the baseline model.

arxiv情報

著者 Ashim Gupta,Vivek Gupta,Shuo Zhang,Yujie He,Ning Zhang,Shalin Shah
発行日 2024-06-14 14:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク