Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

要約

大規模言語モデル (LLM) の最近の進歩により、マルチモーダル LLM (MLLM) の開発が容易になりました。
MLLM はその優れた能力にもかかわらず、単峰性バイアス (言語バイアスや視覚バイアスなど) に過度に依存することが多く、複雑な多峰性タスクで不正解や幻覚を引き起こすことがあります。
この問題を調査するために、Visual Question Answering (VQA) 問題のバイアスを解釈するための因果関係フレームワークを提案します。
このフレームワーク内で、MLLM 予測に対するこれらのバイアスの因果関係を評価するために、詳細な因果分析を実施します。
分析に基づいて、1) マルチホップ推論と単峰性バイアスの克服を必要とする 12,000 の困難な VQA インスタンスを含む新しい MORE データセットを紹介します。
2) さまざまなモダリティからの情報を包括的に統合し、バイアスを軽減するようにモデルをガイドする、因果関係を強化したエージェント フレームワーク CAVE。
私たちの実験によると、MLLM は MORE ではパフォーマンスが低く、強い単峰性バイアスと限られた意味理解が示されています。
ただし、CAVE と統合すると、推論とバイアスの軽減において有望な改善が見られます。
これらの発見は、より堅牢な MLLM の開発に重要な洞察を提供し、より深い理解と推論が可能なマルチモーダル AI システムを進歩させるという広範な目標に貢献します。
私たちのプロジェクト ページは https://github.com/OpenCausaLab/MORE にあります。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have facilitated the development of Multimodal LLMs (MLLMs). Despite their impressive capabilities, MLLMs often suffer from over-reliance on unimodal biases (e.g., language bias and vision bias), leading to incorrect answers or hallucinations in complex multimodal tasks. To investigate this issue, we propose a causal framework to interpret the biases in Visual Question Answering (VQA) problems. Within this framework, we conduct an in-depth causal analysis to assess the causal effect of these biases on MLLM predictions. Based on the analysis, we introduce 1) a novel MORE dataset with 12,000 challenging VQA instances requiring multi-hop reasoning and overcoming unimodal biases. 2) a causality-enhanced agent framework CAVE that guides models to comprehensively integrate information from different modalities and mitigate biases. Our experiments show that MLLMs perform poorly on MORE, indicating strong unimodal biases and limited semantic understanding. However, when integrated with our CAVE, promising improvements in reasoning and bias mitigation can be seen. These findings provide important insights for the development of more robust MLLMs and contribute to the broader goal of advancing multimodal AI systems capable of deeper understanding and reasoning. Our project page is at https://github.com/OpenCausaLab/MORE.

arxiv情報

著者 Meiqi Chen,Yixin Cao,Yan Zhang,Chaochao Lu
発行日 2024-11-13 17:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク