要約
ビジョン言語モデル(VLM)は、視覚的なレイアウトとテキストを解釈する際の顕著な能力を実証しています。
ただし、Webページやデジタルドキュメントなどの実際のシナリオで一般的な発生である画像として提示された多材料データに対して、堅牢性と理由を解釈する能力に大きな課題が残っています。
既存のベンチマークは通常、単一のテーブルまたは非視覚データ(テキスト/構造化)に対応します。
これにより、重要なギャップが残ります。彼らは、多様なテーブル画像を解析し、それらの情報を相関させる能力を評価しません。
Mtabvvqaを紹介します。Mtabvqaは、そのギャップを橋渡しするために回答する多重視覚視覚質問用に特別に設計された新しいベンチマークです。
MTABVQAは、視覚的にレンダリングされたいくつかのテーブル画像にわたってマルチホップの推論を必要とする3,745の複雑な質問回答ペアで構成されています。
MTABVQAの最先端のVLMに広範なベンチマーク結果を提供し、重大なパフォーマンスの制限を明らかにします。
さらに、トレーニング後の手法を調査して、これらの推論能力を高め、大規模な命令調整データセットであるMTABVQA-Instructをリリースします。
私たちの実験は、MTABVQAインストラクションを使用した微調整VLMが視覚的な多亜鉛豊かな推論でのパフォーマンスを大幅に向上させることを示しています。
コードとデータセット(https://huggingface.co/datasets/mtabvqa/mtabvqa-eval)はオンラインで入手できます(https://anonymous.4open.science/r/mtabvqa-murnlp-b16e)。
要約(オリジナル)
Vision-Language Models (VLMs) have demonstrated remarkable capabilities in interpreting visual layouts and text. However, a significant challenge remains in their ability to interpret robustly and reason over multi-tabular data presented as images, a common occurrence in real-world scenarios like web pages and digital documents. Existing benchmarks typically address single tables or non-visual data (text/structured). This leaves a critical gap: they don’t assess the ability to parse diverse table images, correlate information across them, and perform multi-hop reasoning on the combined visual data. We introduce MTabVQA, a novel benchmark specifically designed for multi-tabular visual question answering to bridge that gap. MTabVQA comprises 3,745 complex question-answer pairs that necessitate multi-hop reasoning across several visually rendered table images. We provide extensive benchmark results for state-of-the-art VLMs on MTabVQA, revealing significant performance limitations. We further investigate post-training techniques to enhance these reasoning abilities and release MTabVQA-Instruct, a large-scale instruction-tuning dataset. Our experiments show that fine-tuning VLMs with MTabVQA-Instruct substantially improves their performance on visual multi-tabular reasoning. Code and dataset (https://huggingface.co/datasets/mtabvqa/MTabVQA-Eval) are available online (https://anonymous.4open.science/r/MTabVQA-EMNLP-B16E).
arxiv情報
著者 | Anshul Singh,Chris Biemann,Jan Strich |
発行日 | 2025-06-13 11:21:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google