要約
事前トレーニングされた対照的な視覚言語モデルは、幅広いタスクにわたって優れたパフォーマンスを実証しました。
ただし、事前トレーニング中にカテゴリが適切に表現されていないため、細かくトレーニングされたデータセットで苦労することが多く、適応が必要になります。
最近の研究では、特に低データ領域において、検索拡張適応のためにウェブスケールのデータベースからのサンプルを利用することにより、有望な結果が示されています。
経験的な成功にもかかわらず、検索が視覚言語モデルの適応にどのような影響を与えるかを理解することは、未解決の研究課題のままです。
この研究では、検索拡張適応における主要なコンポーネントの役割を理解するための体系的な研究を提示することで、内省的な視点を採用しています。
ユニモーダル検索とクロスモーダル検索に関する新たな洞察を明らかにし、効果的な適応のためのロジット アンサンブルの重要な役割を強調します。
さらに、私たちの経験的観察を直接裏付ける理論的基礎を提示します。
要約(オリジナル)
Pre-trained contrastive vision-language models have demonstrated remarkable performance across a wide range of tasks. However, they often struggle on fine-trained datasets with categories not adequately represented during pre-training, which makes adaptation necessary. Recent works have shown promising results by utilizing samples from web-scale databases for retrieval-augmented adaptation, especially in low-data regimes. Despite the empirical success, understanding how retrieval impacts the adaptation of vision-language models remains an open research question. In this work, we adopt a reflective perspective by presenting a systematic study to understand the roles of key components in retrieval-augmented adaptation. We unveil new insights on uni-modal and cross-modal retrieval and highlight the critical role of logit ensemble for effective adaptation. We further present theoretical underpinnings that directly support our empirical observations.
arxiv情報
著者 | Yifei Ming,Yixuan Li |
発行日 | 2024-05-02 16:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google