要約
大規模な事前トレーニング済み視覚言語モデル (VLM) は、他のモデルや下流タスクのユビキタスな基本コンポーネントになっています。
強力ではありますが、私たちの経験的結果は、そのようなモデルが詳細な概念を識別できない可能性があることを明らかにしています。
具体的には、きめの細かい概念に関する VLM の説明が複雑で、位置が間違っています。
この問題に対処するために、私たちは DisEntAngle and Localize (DEAL) に対して、人間による注釈なしで VLM の概念レベルの説明を提案します。
重要なアイデアは、カテゴリ レベルの説明との一貫性を維持しながら、概念レベルの説明を明確にすることです。
私たちは、広範なベンチマーク データセットと視覚言語モデルに対して広範な実験とアブレーション研究を実施しています。
私たちの経験的結果は、提案された方法が、解読性と局所化可能性の点でモデルの概念レベルの説明を大幅に改善することを示しています。
驚くべきことに、説明可能性の向上により、モデルの偽相関への依存が軽減され、予測精度がさらに向上します。
要約(オリジナル)
Large pre-trained Vision-Language Models (VLMs) have become ubiquitous foundational components of other models and downstream tasks. Although powerful, our empirical results reveal that such models might not be able to identify fine-grained concepts. Specifically, the explanations of VLMs with respect to fine-grained concepts are entangled and mislocalized. To address this issue, we propose to DisEntAngle and Localize (DEAL) the concept-level explanations for VLMs without human annotations. The key idea is encouraging the concept-level explanations to be distinct while maintaining consistency with category-level explanations. We conduct extensive experiments and ablation studies on a wide range of benchmark datasets and vision-language models. Our empirical results demonstrate that the proposed method significantly improves the concept-level explanations of the model in terms of disentanglability and localizability. Surprisingly, the improved explainability alleviates the model’s reliance on spurious correlations, which further benefits the prediction accuracy.
arxiv情報
著者 | Tang Li,Mengmeng Ma,Xi Peng |
発行日 | 2024-07-19 15:39:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google