On the Out-Of-Distribution Generalization of Multimodal Large Language Models

要約

私たちは、配布外のシナリオとドメイン固有のタスクの下での包括的な評価を通じて、現在のマルチモーダル大規模言語モデル (MLLM) の一般化境界を調査します。
私たちは、合成画像、現実世界の分布シフト、医療画像や分子画像などの特殊なデータセットにわたるゼロショットの一般化を評価します。
経験的な結果は、MLLM が共通のトレーニング領域を超えた一般化に苦労し、適応なしでの直接の適用を制限していることを示しています。
信頼性の低いパフォーマンスの原因を理解するために、意味論的な誤解、視覚的特徴抽出の不十分さ、およびマッピングの欠陥という 3 つの仮説を分析します。
結果は、マッピングの欠如が主な障害であることを特定しました。
この問題に対処するために、インコンテキスト学習 (ICL) が MLLM の汎化を大幅に強化し、汎化の障壁を克服するための新しい道を開くことができることを示します。
分布の変化における ICL の堅牢性をさらに調査し、ドメインの変化、ラベルの変化、およびコンテキスト内の例とテスト データ間の偽の相関の変化に対する ICL の脆弱性を示します。

要約(オリジナル)

We investigate the generalization boundaries of current Multimodal Large Language Models (MLLMs) via comprehensive evaluation under out-of-distribution scenarios and domain-specific tasks. We evaluate their zero-shot generalization across synthetic images, real-world distributional shifts, and specialized datasets like medical and molecular imagery. Empirical results indicate that MLLMs struggle with generalization beyond common training domains, limiting their direct application without adaptation. To understand the cause of unreliable performance, we analyze three hypotheses: semantic misinterpretation, visual feature extraction insufficiency, and mapping deficiency. Results identify mapping deficiency as the primary hurdle. To address this problem, we show that in-context learning (ICL) can significantly enhance MLLMs’ generalization, opening new avenues for overcoming generalization barriers. We further explore the robustness of ICL under distribution shifts and show its vulnerability to domain shifts, label shifts, and spurious correlation shifts between in-context examples and test data.

arxiv情報

著者 Xingxuan Zhang,Jiansheng Li,Wenjing Chu,Junjia Hai,Renzhe Xu,Yuqing Yang,Shikai Guan,Jiazheng Xu,Peng Cui
発行日 2024-02-09 18:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク