GoT-CQA: Graph-of-Thought Guided Compositional Reasoning for Chart Question Answering

要約

チャート質問応答 (CQA) は、視覚的なチャート コンテンツに基づいて質問に答えることを目的としています。これは、チャートの要約、ビジネス データ分析、データ レポートの生成において重要な役割を果たします。
CQA は、強いコンテキスト依存性と複雑な推論要件があるため、困難なマルチモーダル タスクです。
前者は、与えられたチャートの視覚的内容または内部データの分析に厳密に基づいてこの質問に答えることを指しますが、後者は、答えの予測プロセスに含まれるさまざまな論理的および数値的推論を強調します。
この論文では、CQAタスクにおける複雑な推論にさらに注目し、この問題を克服するためのGoT-CQAと呼ばれる新しいGraph-of-Thought(GoT)誘導構成推論モデルを提案します。
まず、チャート指向の質問を、ローカリゼーション、数値演算子、論理演算子を含む複数の演算子ノードで構成される有向非巡回 GoT に変換します。
この質問に対する人間の脳の解決プロセスを直感的に反映します。
その後、GoT の指導による効率的な自動構成推論フレームワークを設計し、さまざまなタイプの質問で複数ステップの推論操作を実行します。
ChartQA および PlotQA-D データセットの包括的な実験では、GoT-CQA が、最新の一般的なベースラインと比較して、特に人間が作成した複雑な推論質問において優れたパフォーマンスを達成することが示されています。

要約(オリジナル)

Chart Question Answering (CQA) aims at answering questions based on the visual chart content, which plays an important role in chart sumarization, business data analysis, and data report generation. CQA is a challenging multi-modal task because of the strong context dependence and complex reasoning requirement. The former refers to answering this question strictly based on the analysis of the visual content or internal data of the given chart, while the latter emphasizes the various logical and numerical reasoning involved in answer prediction process. In this paper, we pay more attention on the complex reasoning in CQA task, and propose a novel Graph-of-Thought (GoT) guided compositional reasoning model called GoT-CQA to overcome this problem. At first, we transform the chart-oriented question into a directed acyclic GoT composed of multiple operator nodes, including localization, numerical and logical operator. It intuitively reflects the human brain’s solution process to this question. After that, we design an efficient auto-compositional reasoning framework guided by the GoT, to excute the multi-step reasoning operations in various types of questions. Comprehensive experiments on ChartQA and PlotQA-D datasets show that GoT-CQA achieves outstanding performance, especially in complex human-written and reasoning questions, comparing with the latest popular baselines.

arxiv情報

著者 Lingling Zhang,Muye Huang,QianYing Wang,Yaxian Wang,Wenjun Wu,Jun Liu
発行日 2024-09-04 10:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク