要約
対照的な損失で訓練されたビジョン言語モデル(VLM)は、さまざまなビジョンおよび言語タスクの大きな進歩を達成しました。
ただし、対照的な損失のグローバルな性質により、VLMは主に前景オブジェクトに焦点を合わせ、画像内の他の重要な情報を無視して、下流タスクの有効性を制限します。
これらの課題に対処するために、コスモスを提案します:新しいテキストクロップ戦略とクロスアテナンスモジュールを自己監視学習フレームワークに統合するビジョン言語前トレーニングのための相互モダリティ自己抵抗。
私たちは、VLMSでの自己抵抗に不可欠な画像とテキスト(つまり、マルチモーダルの増強)のグローバルおよびローカルビューを作成します。
さらに、クロスアテンションモジュールを導入し、Cosmosがクロスモーダリティの自己導入損失を介して最適化された包括的なクロスモーダル表現を学習できるようにします。
Cosmosは、検索、分類、セマンティックセグメンテーションなど、さまざまなゼロショット下流タスクの以前の強力なベースラインよりも一貫して優れています。
さらに、視覚的知覚とコンテキスト理解タスクでより大きなデータセットでトレーニングされたクリップベースのモデルを上回ります。
コードはhttps://github.com/explainableml/cosmosで入手できます。
要約(オリジナル)
Vision-Language Models (VLMs) trained with contrastive loss have achieved significant advancements in various vision and language tasks. However, the global nature of the contrastive loss makes VLMs focus predominantly on foreground objects, neglecting other crucial information in the image, which limits their effectiveness in downstream tasks. To address these challenges, we propose COSMOS: CrOSs-MOdality Self-distillation for vision-language pre-training that integrates a novel text-cropping strategy and cross-attention module into a self-supervised learning framework. We create global and local views of images and texts (i.e., multi-modal augmentations), which are essential for self-distillation in VLMs. We further introduce a cross-attention module, enabling COSMOS to learn comprehensive cross-modal representations optimized via a cross-modality self-distillation loss. COSMOS consistently outperforms previous strong baselines on various zero-shot downstream tasks, including retrieval, classification, and semantic segmentation. Additionally, it surpasses CLIP-based models trained on larger datasets in visual perception and contextual understanding tasks. Code is available at https://github.com/ExplainableML/cosmos.
arxiv情報
著者 | Sanghwan Kim,Rui Xiao,Mariana-Iuliana Georgescu,Stephan Alaniz,Zeynep Akata |
発行日 | 2025-03-26 16:07:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google