Explaining Vision-Language Similarities in Dual Encoders with Feature-Pair Attributions

要約

CLIP モデルのようなデュアル エンコーダ アーキテクチャは、2 種類の入力を共有埋め込み空間にマッピングし、それらの間の類似点を学習します。
ただし、そのようなモデルが 2 つの入力をどのように比較するかは理解されていません。
ここでは、2 つの貢献によってこの研究ギャップに対処します。
まず、微分可能なデュアル エンコーダーの予測をその入力間の特徴ペアの相互作用に帰属する方法を導き出します。
次に、私たちの方法を CLIP タイプのモデルに適用し、キャプションの一部と画像内の領域の間のきめの細かい対応を学習することを示します。
これらは入力モード全体でオブジェクトを照合し、不一致も考慮します。
ただし、この視覚言語的基礎能力はオブジェクト クラス間で大きく異なり、トレーニング データの分布に依存し、ドメイン内トレーニング後に大幅に向上します。
私たちの方法を使用すると、個々のモデル内の特定のオブジェクト クラスに関する知識のギャップを特定し、微調整による改善を監視できます。

要約(オリジナル)

Dual encoder architectures like CLIP models map two types of inputs into a shared embedding space and learn similarities between them. However, it is not understood how such models compare two inputs. Here, we address this research gap with two contributions. First, we derive a method to attribute predictions of any differentiable dual encoder onto feature-pair interactions between its inputs. Second, we apply our method to CLIP-type models and show that they learn fine-grained correspondences between parts of captions and regions in images. They match objects across input modes and also account for mismatches. However, this visual-linguistic grounding ability heavily varies between object classes, depends on the training data distribution, and largely improves after in-domain training. Using our method we can identify knowledge gaps about specific object classes in individual models and can monitor their improvement upon fine-tuning.

arxiv情報

著者 Lucas Möller,Pascal Tilli,Ngoc Thang Vu,Sebastian Padó
発行日 2024-08-26 09:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク