FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

要約

視覚的な質問に答える既存のベンチマークには、特に空間推論スキルの評価において、視覚的な根拠と複雑さが不足しています。
視覚的なコンテキストとしてフローチャートを使用した推論における視覚的な質問応答マルチモーダル言語モデルの機能を評価することを目的とした新しいベンチマークである FlowVQA を紹介します。
FlowVQA は、3 つの異なるコンテンツ ソースから慎重に生成され人間が検証した 2,272 枚のフローチャート画像と、22,413 の多様な質問と回答のペアで構成されており、情報ローカリゼーション、意思決定、論理的進行などのさまざまな推論タスクをテストします。
私たちは、さまざまな戦略を使用して、オープンソースと独自のマルチモーダル言語モデルの両方のスイートに対して徹底的なベースライン評価を実施し、その後、方向性の偏りを分析します。
この結果は、マルチモーダル モデリングの分野を前進させるための重要なツールとしてのベンチマークの可能性を強調し、視覚的および論理的推論タスクにおけるモデルのパフォーマンスを向上させるための集中的でやりがいのある環境を提供します。

要約(オリジナル)

Existing benchmarks for visual question answering lack in visual grounding and complexity, particularly in evaluating spatial reasoning skills. We introduce FlowVQA, a novel benchmark aimed at assessing the capabilities of visual question-answering multimodal language models in reasoning with flowcharts as visual contexts. FlowVQA comprises 2,272 carefully generated and human-verified flowchart images from three distinct content sources, along with 22,413 diverse question-answer pairs, to test a spectrum of reasoning tasks, including information localization, decision-making, and logical progression. We conduct a thorough baseline evaluation on a suite of both open-source and proprietary multimodal language models using various strategies, followed by an analysis of directional bias. The results underscore the benchmark’s potential as a vital tool for advancing the field of multimodal modeling, providing a focused and challenging environment for enhancing model performance in visual and logical reasoning tasks.

arxiv情報

著者 Shubhankar Singh,Purvi Chaurasia,Yerram Varun,Pranshu Pandya,Vatsal Gupta,Vivek Gupta,Dan Roth
発行日 2024-06-28 05:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG パーマリンク