要約
人間の認知の基本的な側面である反事実推論には、確立された事実や過去の出来事に対する代替案を熟考することが含まれ、計画と意思決定における私たちの能力が大幅に向上します。
現在のマルチモーダル大規模言語モデルの進歩を考慮して、反事実推論におけるその有効性を探ります。
この調査を促進するために、最新のマルチモーダル大規模言語モデルの反事実推論機能をテストするために特別に設計された新しいデータセット C-VQA を導入します。
このデータセットは、数値クエリやブール クエリなどのさまざまなタイプにわたる、元の質問に反事実的な前提を注入することによって構築されています。
これには、実際のデータと合成データが混在しており、幅広い難易度を表しています。
このデータセットを使用して現代の視覚言語モデルを徹底的に評価したところ、大幅なパフォーマンスの低下が明らかになり、一部のモデルでは最大 40% の低下が見られ、現在のモデルと人間のような視覚推論能力との間に大きなギャップがあることが浮き彫りになりました。
私たちは、私たちのデータセットが、モデルの反事実推論能力を評価するための重要なベンチマークとして機能することを願っています。
コードとデータセットは https://bzhao.me/C-VQA/ で公開されています。
要約(オリジナル)
Counterfactual reasoning, a fundamental aspect of human cognition, involves contemplating alternatives to established facts or past events, significantly enhancing our abilities in planning and decision-making. In light of the advancements in current multi-modal large language models, we explore their effectiveness in counterfactual reasoning. To facilitate this investigation, we introduce a novel dataset, C-VQA, specifically designed to test the counterfactual reasoning capabilities of modern multi-modal large language models. This dataset is constructed by infusing original questions with counterfactual presuppositions, spanning various types such as numerical and boolean queries. It encompasses a mix of real and synthetic data, representing a wide range of difficulty levels. Our thorough evaluations of contemporary vision-language models using this dataset have revealed substantial performance drops, with some models showing up to a 40% decrease, highlighting a significant gap between current models and human-like vision reasoning capabilities. We hope our dataset will serve as a vital benchmark for evaluating the counterfactual reasoning capabilities of models. Code and dataset are publicly available at https://bzhao.me/C-VQA/.
arxiv情報
著者 | Letian Zhang,Xiaotong Zhai,Zhongkai Zhao,Yongshuo Zong,Xin Wen,Bingchen Zhao |
発行日 | 2023-11-28 15:57:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google