要約
CLIP などの位置合わせされたテキスト画像エンコーダは、視覚言語タスクの事実上のモデルになっています。
さらに、モダリティ固有のエンコーダーは、それぞれのドメインで優れたパフォーマンスを達成します。
これは中心的な疑問を引き起こします: ユニモーダル視覚エンコーダと言語エンコーダは基本的に同じ物理世界を表すため、それらの間に整合性は存在しますか?
Centered Kernel Alignment (CKA) を使用して、画像キャプション ベンチマーク上の視覚モデルと言語モデルの潜在空間構造を分析すると、位置合わせされていないエンコーダーと位置合わせされたエンコーダーの表現空間が意味的に類似していることがわかります。
CLIP のような整列されたエンコーダーに統計的類似性がない場合、トレーニングなしで整列されていないエンコーダーの一致の可能性が存在することを示します。
我々はこれを、グラフ間の意味論的な類似性を利用したシードされたグラフマッチング問題として枠組み化し、高速二次代入問題の最適化と、新しいローカライズされた CKA メトリクスベースのマッチング/検索という 2 つの方法を提案します。
私たちは、言語を超えた、ドメインを超えたキャプションのマッチングや画像分類など、いくつかの下流タスクでこれが有効であることを実証します。
要約(オリジナル)
Aligned text-image encoders such as CLIP have become the de facto model for vision-language tasks. Furthermore, modality-specific encoders achieve impressive performances in their respective domains. This raises a central question: does an alignment exist between uni-modal vision and language encoders since they fundamentally represent the same physical world? Analyzing the latent spaces structure of vision and language models on image-caption benchmarks using the Centered Kernel Alignment (CKA), we find that the representation spaces of unaligned and aligned encoders are semantically similar. In the absence of statistical similarity in aligned encoders like CLIP, we show that a possible matching of unaligned encoders exists without any training. We frame this as a seeded graph-matching problem exploiting the semantic similarity between graphs and propose two methods – a Fast Quadratic Assignment Problem optimization, and a novel localized CKA metric-based matching/retrieval. We demonstrate the effectiveness of this on several downstream tasks including cross-lingual, cross-domain caption matching and image classification.
arxiv情報
著者 | Mayug Maniparambil,Raiymbek Akshulakov,Yasser Abdelaziz Dahou Djilali,Sanath Narayan,Mohamed El Amine Seddik,Karttikeya Mangalam,Noel E. O’Connor |
発行日 | 2024-01-10 15:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google