要約
対照的な言語イメージの事前削除(CLIP)は、視覚的表現とテキスト表現を効果的に整列させることにより、ゼロショット画像分類やテキストイメージの検索などのクロスモーダルタスクで顕著な成功を収めました。
ただし、クリップの強力な一般化の根底にある理論的基礎は不明のままです。
この作業では、クロスモーダル情報ボトルネック(CIB)フレームワークを提案することにより、このギャップに対処します。
CIBは、暗黙の情報ボトルネックの最適化として、Clipの対照的な学習目標の原則的な解釈を提供します。
この見解では、モデルは共有されたクロスモーダル情報を最大化し、モダリティ固有の冗長性を破棄し、モダリティ全体で重要なセマンティックアライメントを維持します。
この洞察に基づいて、トレーニング中にこれらのIBの原則を明示的に実施するクロスモーダル情報ボトルネック正規化(CIBR)方法を紹介します。
CIBRは、モダリティ固有の冗長性を思いとどまらせるためのペナルティ用語を導入し、それにより画像とテキスト機能の間のセマンティックアラインメントを強化します。
7つの多様な画像データセットにわたるゼロショット分類や、MSCOCOおよびFlickR30Kのテキストイメージ検索など、CIBRを大規模なビジョン言語ベンチマークで検証します。
結果は、標準クリップよりも一貫したパフォーマンスの向上を示しています。
これらの調査結果は、IBレンズを介したクリップの一般化の最初の理論的理解を提供します。
また、実用的な改善を実証し、将来のクロスモーダル表現学習のためのガイダンスを提供します。
要約(オリジナル)
Contrastive Language-Image Pretraining (CLIP) has achieved remarkable success in cross-modal tasks such as zero-shot image classification and text-image retrieval by effectively aligning visual and textual representations. However, the theoretical foundations underlying CLIP’s strong generalization remain unclear. In this work, we address this gap by proposing the Cross-modal Information Bottleneck (CIB) framework. CIB offers a principled interpretation of CLIP’s contrastive learning objective as an implicit Information Bottleneck optimization. Under this view, the model maximizes shared cross-modal information while discarding modality-specific redundancies, thereby preserving essential semantic alignment across modalities. Building on this insight, we introduce a Cross-modal Information Bottleneck Regularization (CIBR) method that explicitly enforces these IB principles during training. CIBR introduces a penalty term to discourage modality-specific redundancy, thereby enhancing semantic alignment between image and text features. We validate CIBR on extensive vision-language benchmarks, including zero-shot classification across seven diverse image datasets and text-image retrieval on MSCOCO and Flickr30K. The results show consistent performance gains over standard CLIP. These findings provide the first theoretical understanding of CLIP’s generalization through the IB lens. They also demonstrate practical improvements, offering guidance for future cross-modal representation learning.
arxiv情報
著者 | Yingrui Ji,Xi Xiao,Gaofei Chen,Hao Xu,Chenrui Ma,Lijing Zhu,Aokun Liang,Jiansheng Chen |
発行日 | 2025-03-31 15:00:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google