Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations

要約

グラフの解釈は視覚的なデータ分析にとって重要ですが、グラフから情報を正確に抽出することは自動化モデルにとって大きな課題となります。
この研究では、50,000 個の棒グラフのカスタム データセット上で、プロットまたはチャートの画像を線形化されたテーブルに変換するモダリティ変換モジュールである DEPLOT の微調整を調査します。
データセットは、これらのビジュアライゼーションの固有の構造的特徴を対象とした、単純な積み上げ棒グラフ、およびグループ化された棒グラフで構成されています。
微調整された DEPLOT モデルは、1,000 枚の画像のテスト セットと、カテゴリカル マッピングの精度を測定する相対マッピング類似性 (RMS) と数値解釈の精度を評価する相対数値セット類似性 (RNSS) の 2 つのメトリクスを使用して、基本バージョンに対して評価されます。
大規模言語モデル (LLM) の推論機能をさらに調査するために、質問と回答のセットと組み合わせた 100 個の棒グラフ画像の追加セットを厳選しました。
私たちの調査結果は、画像と一緒に構造化された中間テーブルを提供すると、直接画像クエリと比較して LLM 推論のパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Chart interpretation is crucial for visual data analysis, but accurately extracting information from charts poses significant challenges for automated models. This study investigates the fine-tuning of DEPLOT, a modality conversion module that translates the image of a plot or chart to a linearized table, on a custom dataset of 50,000 bar charts. The dataset comprises simple, stacked, and grouped bar charts, targeting the unique structural features of these visualizations. The finetuned DEPLOT model is evaluated against its base version using a test set of 1,000 images and two metrics: Relative Mapping Similarity (RMS), which measures categorical mapping accuracy, and Relative Number Set Similarity (RNSS), which evaluates numerical interpretation accuracy. To further explore the reasoning capabilities of large language models (LLMs), we curate an additional set of 100 bar chart images paired with question answer sets. Our findings demonstrate that providing a structured intermediate table alongside the image significantly enhances LLM reasoning performance compared to direct image queries.

arxiv情報

著者 Archita Srivastava,Abhas Kumar,Rajesh Kumar,Prabhakar Srinivasan
発行日 2025-01-08 18:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク