要約
対照言語画像事前トレーニング (CLIP) は、顕著なゼロショット分類能力、つまり新しいテキスト ラベルを使用した画像分類能力を実証しました。
既存の作業では、下流のタスクを微調整することによって CLIP を強化しようとしましたが、これらは目に見えないクラスで不注意にパフォーマンスの低下を引き起こし、ゼロショット汎化に悪影響を及ぼしました。
この論文は、推論中のクロスモーダル ガイダンスのために外部データセットからすぐに利用できる画像とテキストのペアを活用することで、この課題に対処することを目的としています。
この目的を達成するために、我々は、(1) クロスモーダル検索と (2) モーダル信頼ベースのアンサンブルという 2 つの重要なステップで構成される新しい推論方法である X-MoRe を提案します。
クエリ画像が与えられると、CLIP のクロスモーダル表現の力を利用して、外部の画像とテキストのペアのデータセットから関連するテキスト情報を取得します。
次に、元のクエリ画像と取得したテキストの間でより信頼性の高いモダリティに高い重みを割り当て、最終的な予測に貢献します。
X-MoRe は、追加のトレーニングを必要とせずに、さまざまなタスクにわたって堅牢なパフォーマンスを実証し、CLIP のゼロショット能力を最大化するクロスモーダル機能の利用の有効性を示しています。
要約(オリジナル)
Contrastive language-image pre-training (CLIP) has demonstrated remarkable zero-shot classification ability, namely image classification using novel text labels. Existing works have attempted to enhance CLIP by fine-tuning on downstream tasks, but these have inadvertently led to performance degradation on unseen classes, thus harming zero-shot generalization. This paper aims to address this challenge by leveraging readily available image-text pairs from an external dataset for cross-modal guidance during inference. To this end, we propose X-MoRe, a novel inference method comprising two key steps: (1) cross-modal retrieval and (2) modal-confidence-based ensemble. Given a query image, we harness the power of CLIP’s cross-modal representations to retrieve relevant textual information from an external image-text pair dataset. Then, we assign higher weights to the more reliable modality between the original query image and retrieved text, contributing to the final prediction. X-MoRe demonstrates robust performance across a diverse set of tasks without the need for additional training, showcasing the effectiveness of utilizing cross-modal features to maximize CLIP’s zero-shot ability.
arxiv情報
著者 | Seongha Eom,Namgyu Ho,Jaehoon Oh,Se-Young Yun |
発行日 | 2023-08-29 13:02:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google