Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations


この研究では、50,000 個の棒グラフのカスタム データセット上で、プロットまたはチャートの画像を線形化されたテーブルに変換するモダリティ変換モジュールである DEPLOT の微調整を調査します。
微調整された DEPLOT モデルは、1,000 枚の画像のテスト セットと、カテゴリカル マッピングの精度を測定する相対マッピング類似性 (RMS) と数値解釈の精度を評価する相対数値セット類似性 (RNSS) の 2 つのメトリクスを使用して、基本バージョンに対して評価されます。
大規模言語モデル (LLM) の推論機能をさらに調査するために、質問と回答のセットと組み合わせた 100 個の棒グラフ画像の追加セットを厳選しました。
私たちの調査結果は、画像と一緒に構造化された中間テーブルを提供すると、直接画像クエリと比較して LLM 推論のパフォーマンスが大幅に向上することを示しています。


Chart interpretation is crucial for visual data analysis, but accurately extracting information from charts poses significant challenges for automated models. This study investigates the fine-tuning of DEPLOT, a modality conversion module that translates the image of a plot or chart to a linearized table, on a custom dataset of 50,000 bar charts. The dataset comprises simple, stacked, and grouped bar charts, targeting the unique structural features of these visualizations. The finetuned DEPLOT model is evaluated against its base version using a test set of 1,000 images and two metrics: Relative Mapping Similarity (RMS), which measures categorical mapping accuracy, and Relative Number Set Similarity (RNSS), which evaluates numerical interpretation accuracy. To further explore the reasoning capabilities of large language models (LLMs), we curate an additional set of 100 bar chart images paired with question answer sets. Our findings demonstrate that providing a structured intermediate table alongside the image significantly enhances LLM reasoning performance compared to direct image queries.


Archita Srivastava,Abhas Kumar,Rajesh Kumar,Prabhakar Srinivasan
2025-01-08
