Multimodal Graph Constrastive Learning and Prompt for ChartQA

要約

ChartQA は、チャート要素の複雑な分布と基礎となるデータ内に埋め込まれた暗黙的なパターンにより、重大な課題を抱えています。
この章では、チャート要素とそれに関連するパターン間の関係を明示的に表す、チャート用の共同マルチモーダル シーン グラフを開発しました。
私たちが提案するマルチモーダル シーン グラフは、ビジュアル グラフとテキスト グラフの 2 つのコンポーネントで構成されており、それぞれがチャート内の構造的および意味論的な情報をキャプチャするように設計されています。
これらの異なるモダリティ間で表現を統一するために、マルチモーダル グラフ間で同じオブジェクトを表すノード間の類似性を最大化することで統一表現を学習する、マルチモーダル グラフ対比学習アプローチを導入します。
学習されたグラフ表現は、ソフト プロンプトとしてトランス デコーダにシームレスに組み込むことができます。
さらに、ゼロショット シナリオにおけるマルチモーダル大規模言語モデル (MLLM) のニーズが高まっていることを考慮して、幻覚を軽減するための MLLM 用の思考連鎖 (CoT) プロンプトを設計しました。
ChartQA、OpenCQA、ChartX などの公開ベンチマークで両方のメソッドをテストし、パフォーマンスの向上を実証し、提案したメソッドの有効性を検証しました。

要約(オリジナル)

ChartQA presents significant challenges due to the complex distribution of chart elements and the implicit patterns embedded within the underlying data. In this chapter, we have developed a joint multimodal scene graph for charts, explicitly representing the relationships between chart elements and their associated patterns. Our proposed multimodal scene graph consists of two components: a visual graph and a textual graph, each designed to capture the structural and semantic information within the chart. To unify representations across these different modalities, we introduce a multimodal graph contrastive learning approach that learns unified representations by maximizing similarity between nodes representing the same object across multimodal graphs. The learned graph representations can be seamlessly incorporated into a transformer decoder as a soft prompt. Additionally, given the growing need for Multimodal Large Language Models (MLLMs) in zero-shot scenarios, we have designed Chain-of-Thought (CoT) prompts for MLLMs to reduce hallucinations. We tested both methods on public benchmarks such as ChartQA, OpenCQA, and ChartX, demonstrating improved performance and validating the effectiveness of our proposed methods.

arxiv情報

著者 Yue Dai,Soyeon Caren Han,Wei Liu
発行日 2025-01-08 06:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク