要約
あるモダリティからクエリが与えられると、少数ショットクロスモーダル検索 (CMR) は、ソース ドメインから切り離されたクラスを含むターゲット ドメインを持つ別のモダリティで意味的に類似したインスタンスを取得します。
従来の少数ショット CMR 手法と比較して、CLIP のような視覚言語事前トレーニング手法は、少数ショットまたはゼロショット学習の優れたパフォーマンスを示しています。
ただし、(1) ターゲット ドメインで発生する機能の低下、および (2) 極端なデータの不均衡により、依然として課題に直面しています。
これらの問題に取り組むために、私たちは新しい機能レベル生成ネットワーク拡張 CLIP である FLEX-CLIP を提案します。
FLEX-CLIP には 2 つのトレーニング ステージが含まれています。
マルチモーダル特徴生成では、実際の特徴分布パターンをキャプチャし、CLIP 特徴に基づいて疑似サンプルを生成し、データの不均衡に対処する複合マルチモーダル VAE-GAN ネットワークを提案します。
共通空間投影の場合、CLIP 特徴と投影された特徴を融合するゲート残差ネットワークを開発し、X ショット シナリオでの特徴の劣化を軽減します。
4 つのベンチマーク データセットの実験結果では、最先端の方法と比較して 7% ~ 15% の改善が示されており、アブレーション研究では CLIP 機能の強化が実証されています。
要約(オリジナル)
Given a query from one modality, few-shot cross-modal retrieval (CMR) retrieves semantically similar instances in another modality with the target domain including classes that are disjoint from the source domain. Compared with classical few-shot CMR methods, vision-language pretraining methods like CLIP have shown great few-shot or zero-shot learning performance. However, they still suffer challenges due to (1) the feature degradation encountered in the target domain and (2) the extreme data imbalance. To tackle these issues, we propose FLEX-CLIP, a novel Feature-level Generation Network Enhanced CLIP. FLEX-CLIP includes two training stages. In multimodal feature generation, we propose a composite multimodal VAE-GAN network to capture real feature distribution patterns and generate pseudo samples based on CLIP features, addressing data imbalance. For common space projection, we develop a gate residual network to fuse CLIP features with projected features, reducing feature degradation in X-shot scenarios. Experimental results on four benchmark datasets show a 7%-15% improvement over state-of-the-art methods, with ablation studies demonstrating enhancement of CLIP features.
arxiv情報
著者 | Jingyou Xie,Jiayi Kuang,Zhenzhou Lin,Jiarui Ouyang,Zishuo Zhao,Ying Shen |
発行日 | 2024-11-26 14:12:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google