Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA

要約

グラフやプロットなどのデータ視覚化を理解するには、視覚要素と数値の両方について推論する必要があります。
現在のチャート ビジュアル質問応答 (チャート VQA) モデルは、抽出的な質問には優れていますが、複雑な推論質問には問題があります。
この研究では、データ拡張によって推論能力の欠如に対処します。
当社では、強力な推論能力を持つことが証明されているラージ言語モデル (LLM) を、チャート画像に対する質問と回答のアノテーションを生成する自動データ アノテーターとして活用しています。
私たちの手法における重要な革新は、ステップバイステップの合成戦略にあります。LLM ベースのデータ ジェネレーターは、複雑な質問をステップバイステップのサブ質問 (理論的根拠) に分解することを学習し、それを使用して最終的な答えを導き出します。
外部ツール、つまり Python を使用して回答します。
この段階的な生成手順は、テンプレートベースの QA 生成パイプラインを使用して生成された合成データに基づいてトレーニングされます。
実験結果は、提案された段階的生成の重要性を強調しています。
LLM 拡張データ (LAMENDA) を使用してトレーニングすることにより、チャート VQA モデルが大幅に強化され、ChartQA および PlotQA データセットで最先端の精度が達成されます。
特に、私たちのアプローチは、強力な推論を必要とする ChartQA データセット内の人間が書いた質問について、以前の最先端のアプローチの精度を 38% から 54% に向上させます。
私たちは、私たちの研究が合成データの可能性を強調し、推論が必要なタスクに LLM を使用したデータ拡張のさらなる探求を促進することを願っています。

要約(オリジナル)

Understanding data visualizations like charts and plots requires reasoning about both visual elements and numerics. Although strong in extractive questions, current chart visual question answering (chart VQA) models suffer on complex reasoning questions. In this work, we address the lack of reasoning ability by data augmentation. We leverage Large Language Models (LLMs), which have shown to have strong reasoning ability, as an automatic data annotator that generates question-answer annotations for chart images. The key innovation in our method lies in the Synthesize Step-by-Step strategy: our LLM-based data generator learns to decompose the complex question into step-by-step sub-questions (rationales), which are then used to derive the final answer using external tools, i.e. Python. This step-wise generation procedure is trained on synthetic data generated using a template-based QA generation pipeline. Experimental results highlight the significance of the proposed step-by-step generation. By training with the LLM-augmented data (LAMENDA), we significantly enhance the chart VQA models, achieving the state-of-the-art accuracy on the ChartQA and PlotQA datasets. In particular, our approach improves the accuracy of the previous state-of-the-art approach from 38% to 54% on the human-written questions in the ChartQA dataset, which needs strong reasoning. We hope our work underscores the potential of synthetic data and encourages further exploration of data augmentation using LLMs for reasoning-heavy tasks.

arxiv情報

著者 Zhuowan Li,Bhavan Jasani,Peng Tang,Shabnam Ghadar
発行日 2024-03-28 16:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク