Classification-Regression for Chart Comprehension

要約

チャートの質問応答(CQA)は、チャートの理解度を評価するために使用されるタスクであり、自然な画像を理解することとは根本的に異なります。
CQAでは、一般的な質問に答えたり、数値を推測したりするために、グラフのテキストコンポーネントとビジュアルコンポーネントの関係を分析する必要があります。
ほとんどの既存のCQAデータセットとモデルは、人間のパフォーマンスを超えることを可能にすることが多い仮定を単純化することに基づいています。
この作業では、この結果に対処し、分類と回帰を共同で学習する新しいモデルを提案します。
私たちの言語ビジョンのセットアップでは、共注意トランスフォーマーを使用して、質問とテキスト要素の間の複雑な現実世界の相互作用をキャプチャします。
FigureQAで競争力のあるパフォーマンスを示しながら、現実的なPlotQAデータセットでの広範な実験により、以前のアプローチを大幅に上回り、設計を検証します。
私たちのモデルは、回帰を必要とする語彙外の回答を伴う現実的な質問に特に適しています。

要約(オリジナル)

Chart question answering (CQA) is a task used for assessing chart comprehension, which is fundamentally different from understanding natural images. CQA requires analyzing the relationships between the textual and the visual components of a chart, in order to answer general questions or infer numerical values. Most existing CQA datasets and models are based on simplifying assumptions that often enable surpassing human performance. In this work, we address this outcome and propose a new model that jointly learns classification and regression. Our language-vision setup uses co-attention transformers to capture the complex real-world interactions between the question and the textual elements. We validate our design with extensive experiments on the realistic PlotQA dataset, outperforming previous approaches by a large margin, while showing competitive performance on FigureQA. Our model is particularly well suited for realistic questions with out-of-vocabulary answers that require regression.

arxiv情報

著者 Matan Levy,Rami Ben-Ari,Dani Lischinski
発行日 2022-07-11 15:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク