Interpreting CLIP’s Image Representation via Text-Based Decomposition

要約

個々のモデルコンポーネントが最終的な表現にどのような影響を与えるかを分析することにより、CLIP 画像エンコーダーを調査します。
画像表現を個々の画像パッチ、モデルレイヤー、アテンションヘッドの合計として分解し、CLIP のテキスト表現を使用して加数を解釈します。
アテンションヘッドを解釈して、その出力空間にわたるテキスト表現を自動的に検出することで各ヘッドの役割を特徴付け、これにより多くのヘッドのプロパティ固有の役割 (位置や形状など) が明らかになります。
次に、画像パッチを解釈して、CLIP 内の新たな空間的位置特定を明らかにします。
最後に、この理解を利用して、CLIP から偽の特徴を削除し、強力なゼロショット画像セグメンターを作成します。
私たちの結果は、変圧器モデルのスケーラブルな理解が達成可能であり、モデルの修復と改善に使用できることを示しています。

要約(オリジナル)

We investigate the CLIP image encoder by analyzing how individual model components affect the final representation. We decompose the image representation as a sum across individual image patches, model layers, and attention heads, and use CLIP’s text representation to interpret the summands. Interpreting the attention heads, we characterize each head’s role by automatically finding text representations that span its output space, which reveals property-specific roles for many heads (e.g. location or shape). Next, interpreting the image patches, we uncover an emergent spatial localization within CLIP. Finally, we use this understanding to remove spurious features from CLIP and to create a strong zero-shot image segmenter. Our results indicate that a scalable understanding of transformer models is attainable and can be used to repair and improve models.

arxiv情報

著者 Yossi Gandelsman,Alexei A. Efros,Jacob Steinhardt
発行日 2024-01-22 18:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク