要約
CLIP などのラージ ビジョン言語モデル (VLM) は、オブジェクト認識やオブジェクト検出などのさまざまなコンピューター ビジョン タスクに大きく貢献してきました。
オープンボキャブラリー機能により、その価値が高まります。
ただし、ブラックボックスの性質と予測の説明可能性の欠如により、重要な領域では信頼性が低くなります。
最近、VLM に物体認識の合理的な根拠を提供させるための取り組みが行われていますが、これは多くの場合、分類精度を犠牲にします。
この論文では、まずカテゴリと根拠の同時確率分布に基づいたオブジェクト認識タスクにおける説明可能性の数学的定義を提案し、次にこの定義を利用して説明可能な方法で CLIP を微調整します。
さまざまなデータセットの評価を通じて、私たちの方法は説明可能な分類における最先端のパフォーマンスを実証します。
特にゼロショット設定に優れており、その適応性を示しています。
この進歩により、説明可能なオブジェクト認識が向上し、さまざまなアプリケーションにわたる信頼性が強化されます。
コードは公開され次第、オンラインで利用できるようになります。
要約(オリジナル)
Large Vision Language Models (VLMs), such as CLIP, have significantly contributed to various computer vision tasks, including object recognition and object detection. Their open vocabulary feature enhances their value. However, their black-box nature and lack of explainability in predictions make them less trustworthy in critical domains. Recently, some work has been done to force VLMs to provide reasonable rationales for object recognition, but this often comes at the expense of classification accuracy. In this paper, we first propose a mathematical definition of explainability in the object recognition task based on the joint probability distribution of categories and rationales, then leverage this definition to fine-tune CLIP in an explainable manner. Through evaluations of different datasets, our method demonstrates state-of-the-art performance in explainable classification. Notably, it excels in zero-shot settings, showcasing its adaptability. This advancement improves explainable object recognition, enhancing trust across diverse applications. The code will be made available online upon publication.
arxiv情報
著者 | Ali Rasekh,Sepehr Kazemi Ranjbar,Milad Heidari,Wolfgang Nejdl |
発行日 | 2024-04-19 12:20:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google