要約
チャート質問応答(Chartqa)は、チャート要素の不均一な構成とそれらがエンコードする微妙なデータパターンによって挑戦されます。
この作業では、チャートコンポーネントとその基礎となる構造間の関係を明示的にモデル化する新しいジョイントマルチモーダルシーングラフフレームワークを紹介します。
フレームワークは、視覚的グラフとテキストグラフの両方を統合して構造的特性とセマンティック特性をキャプチャしますが、グラフのコントラスト学習戦略は、モダリティ全体にノード表現を調整し、シームレスな組み込みをソフトプロンプトとして変圧器デコーダーに整列させます。
さらに、幻覚を緩和することにより、ゼロ-S OTシナリオでマルチモーダル大手言語モデル(MLLM)を強化するために、一連のテーラード思考チェーン(COT)プロンプトが提案されています。
Chartqa、Opencqa、Chartxなどのベンチマークに関する広範な評価は、大幅なパフォーマンスの改善を実証し、提案されたアプローチの有効性を検証します。
要約(オリジナル)
Chart question answering (ChartQA) is challenged by the heterogeneous composition of chart elements and the subtle data patterns they encode. This work introduces a novel joint multimodal scene graph framework that explicitly models the relationships among chart components and their underlying structures. The framework integrates both visual and textual graphs to capture structural and semantic characteristics, while a graph contrastive learning strategy aligns node representations across modalities enabling their seamless incorporation into a transformer decoder as soft prompts. Moreover, a set of tailored Chain of Thought (CoT) prompts is proposed to enhance multimodal large language models (MLLMs) in zero-s ot scenarios by mitigating hallucinations. Extensive evaluations on benchmarks including ChartQA, OpenCQA, and ChartX demonstrate significant performance improvements and validate the efficacy of the proposed approach.
arxiv情報
著者 | Yue Dai,Soyeon Caren Han,Wei Liu |
発行日 | 2025-04-07 15:45:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google