要約
図表質問応答(CQA)は、視覚言語理解の重要な分野である。しかし、この分野における現在の視覚言語モデル(VLM)の頑健性と一貫性は、まだ十分に検討されていない。この論文では、この研究のために特別に開発された、多様な質問カテゴリとチャート形式を含む包括的なデータセットを用いて、最先端のVLMを評価する。我々は2つの重要な側面を調査する:1)様々なレベルの図表と質問の複雑さを扱うモデルの能力、2)同じ基礎データの異なる視覚的表現に対するモデルの頑健性。我々の分析により、質問と図表の種類によって性能が大きく異なることが明らかになり、現在のモデルの長所と短所の両方が浮き彫りになった。さらに、よりロバストで信頼性の高いCQAシステムを構築するために、改善すべき領域を特定し、今後の研究の方向性を提案する。本研究は、現在のモデルの限界に光を当て、この分野における将来の進歩への道を開くものである。
要約(オリジナル)
Chart question answering (CQA) is a crucial area of Visual Language Understanding. However, the robustness and consistency of current Visual Language Models (VLMs) in this field remain under-explored. This paper evaluates state-of-the-art VLMs on comprehensive datasets, developed specifically for this study, encompassing diverse question categories and chart formats. We investigate two key aspects: 1) the models’ ability to handle varying levels of chart and question complexity, and 2) their robustness across different visual representations of the same underlying data. Our analysis reveals significant performance variations based on question and chart types, highlighting both strengths and weaknesses of current models. Additionally, we identify areas for improvement and propose future research directions to build more robust and reliable CQA systems. This study sheds light on the limitations of current models and paves the way for future advancements in the field.
arxiv情報
著者 | Srija Mukhopadhyay,Adnan Qidwai,Aparna Garimella,Pritika Ramu,Vivek Gupta,Dan Roth |
発行日 | 2024-10-04 16:52:57+00:00 |
arxivサイト | arxiv_id(pdf) |