Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

要約

大規模言語モデル (LLM) の最近の進歩により、マルチモーダル LLM (MLLM) の開発が容易になりました。
MLLM はその優れた機能にもかかわらず、単峰性バイアス (言語バイアスや視覚バイアスなど) への過度の依存に悩まされることが多く、複雑な多峰性タスクで不正解につながることがあります。
この問題を調査するために、Visual Question Answering (VQA) 問題のバイアスを解釈するための因果関係フレームワークを提案します。
私たちのフレームワーク内で、VQA 問題に関する MLLM の予測を解明するための因果グラフを考案し、詳細な因果分析を通じてバイアスの因果効果を評価します。
因果関係グラフを動機として、12,000 の VQA インスタンスで構成される新しい MORE データセットを導入します。
このデータセットは、MLLM の能力に挑戦するように設計されており、マルチホップ推論と単峰性バイアスの克服が必要です。
さらに、単峰性バイアスを緩和し、MLLM の推論能力を強化するための 2 つの戦略を提案します。これには、アクセスが制限された MLLM 用の Decompose-Verify-Answer (DeVA) フレームワークと、微調整によるオープンソース MLLM の改良が含まれます。
広範な定量的および定性的実験により、将来の研究に貴重な洞察が得られます。
私たちのプロジェクト ページは https://opencausalab.github.io/MORE にあります。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have facilitated the development of Multimodal LLMs (MLLMs). Despite their impressive capabilities, MLLMs often suffer from an over-reliance on unimodal biases (e.g., language bias and vision bias), leading to incorrect answers in complex multimodal tasks. To investigate this issue, we propose a causal framework to interpret the biases in Visual Question Answering (VQA) problems. Within our framework, we devise a causal graph to elucidate the predictions of MLLMs on VQA problems, and assess the causal effect of biases through an in-depth causal analysis. Motivated by the causal graph, we introduce a novel MORE dataset, consisting of 12,000 VQA instances. This dataset is designed to challenge MLLMs’ abilities, necessitating multi-hop reasoning and the surmounting of unimodal biases. Furthermore, we propose two strategies to mitigate unimodal biases and enhance MLLMs’ reasoning capabilities, including a Decompose-Verify-Answer (DeVA) framework for limited-access MLLMs and the refinement of open-source MLLMs through fine-tuning. Extensive quantitative and qualitative experiments offer valuable insights for future research. Our project page is at https://opencausalab.github.io/MORE.

arxiv情報

著者 Meiqi Chen,Yixin Cao,Yan Zhang,Chaochao Lu
発行日 2024-03-28 17:09:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク