要約
Contrastive Language-Image Pretraining (CLIP) は、画像とテキストのクラス表現を共有埋め込み空間にマッピングし、画像に最も近いクラスを取得することにより、ゼロショット画像分類を実行します。
この研究は、2 つのモダリティ間の相互知識のレンズから画像分類のための CLIP モデルを解釈するための新しいアプローチを提供します。
具体的には、視覚と言語の両方の CLIP エンコーダが共通して学習する、ジョイントの埋め込み空間に影響を与え、点を近づけたり遠ざけたりする概念は何でしょうか?
私たちはテキストによる概念ベースの説明のアプローチを通じてこの質問に答え、その有効性を示し、アーキテクチャ、サイズ、事前トレーニング データセットが異なる 13 個の CLIP モデルのプールを含む分析を実行します。
私たちは相互知識に関連してそれらのさまざまな側面を調査し、ゼロショット予測を分析します。
私たちのアプローチは、CLIP を使用したゼロショット分類の決定を理解する効果的で人に優しい方法を示しています。
要約(オリジナル)
Contrastive Language-Image Pretraining (CLIP) performs zero-shot image classification by mapping images and textual class representation into a shared embedding space, then retrieving the class closest to the image. This work provides a new approach for interpreting CLIP models for image classification from the lens of mutual knowledge between the two modalities. Specifically, we ask: what concepts do both vision and language CLIP encoders learn in common that influence the joint embedding space, causing points to be closer or further apart? We answer this question via an approach of textual concept-based explanations, showing their effectiveness, and perform an analysis encompassing a pool of 13 CLIP models varying in architecture, size and pretraining datasets. We explore those different aspects in relation to mutual knowledge, and analyze zero-shot predictions. Our approach demonstrates an effective and human-friendly way of understanding zero-shot classification decisions with CLIP.
arxiv情報
著者 | Fawaz Sammani,Nikos Deligiannis |
発行日 | 2024-12-18 16:01:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google