要約
CLIP のような大規模ビジョン言語モデル (VLM) は、画像とテキストの間の対応関係を首尾よく見つけます。
標準の決定論的マッピング プロセスを通じて、画像またはテキスト サンプルは埋め込み空間内の単一のベクトルにマッピングされます。
これには問題があります。物理世界では複数のサンプル (画像またはテキスト) が同じ概念を抽象化できるため、決定論的な埋め込みは埋め込み空間に固有の曖昧さを反映しません。
我々は、大規模なデータセットやコンピューティングを必要とせずに、事後的にモーダル間/モーダル内アライメントを介して事前トレーニングされた VLM の埋め込みの確率分布を推定する確率的アダプターである ProbVLM を提案します。
4 つの困難なデータセット (COCO、Flickr、CUB、および Oxford-flowers) で、2 つの VLM (CLIP と BLIP) のマルチモーダル埋め込み不確かさを推定し、検索タスクにおける埋め込み不確かさのキャリブレーションを定量化し、ProbVLM が優れていることを示します。
他の方法。
さらに、VLM の 2 つの現実世界の下流タスクとしてアクティブ ラーニングとモデル選択を提案し、推定された不確実性が両方のタスクに役立つことを示します。
最後に、大規模な事前訓練された潜在拡散モデルを使用して埋め込み分布を視覚化するための新しい手法を紹介します。
コードは https://github.com/ExplainableML/ProbVLM で入手できます。
要約(オリジナル)
Large-scale vision-language models (VLMs) like CLIP successfully find correspondences between images and text. Through the standard deterministic mapping process, an image or a text sample is mapped to a single vector in the embedding space. This is problematic: as multiple samples (images or text) can abstract the same concept in the physical world, deterministic embeddings do not reflect the inherent ambiguity in the embedding space. We propose ProbVLM, a probabilistic adapter that estimates probability distributions for the embeddings of pre-trained VLMs via inter/intra-modal alignment in a post-hoc manner without needing large-scale datasets or computing. On four challenging datasets, i.e., COCO, Flickr, CUB, and Oxford-flowers, we estimate the multi-modal embedding uncertainties for two VLMs, i.e., CLIP and BLIP, quantify the calibration of embedding uncertainties in retrieval tasks and show that ProbVLM outperforms other methods. Furthermore, we propose active learning and model selection as two real-world downstream tasks for VLMs and show that the estimated uncertainty aids both tasks. Lastly, we present a novel technique for visualizing the embedding distributions using a large-scale pre-trained latent diffusion model. Code is available at https://github.com/ExplainableML/ProbVLM.
arxiv情報
著者 | Uddeshya Upadhyay,Shyamgopal Karthik,Massimiliano Mancini,Zeynep Akata |
発行日 | 2023-09-12 15:46:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google