要約
言語は、トレーニング領域での経験的な発見なしに、ビジョン エンコーダーをさまざまな分布からのデータに拡張するのに役立ちます。
ただし、画像の説明はほとんどが粗粒レベルであり、視覚的な詳細を無視しているため、結果として得られる埋め込みは、推論時のドメインの複雑さを克服するのには依然として効果的ではありません。
我々は、単一ドメイン内のデータのみを利用し、事前のテストを行わずに、差別的な視覚表現のもつれを解消するための自己監視フレームワーク WIDIn (ドメイン不変表現のためのワーディング イメージ) を提案します。
具体的には、各画像について、最初に詳細な位置合わせを使用して言語埋め込みを推定します。その結果、これを使用して適応的に識別し、生の視覚的埋め込みからドメイン固有の対応物を削除できます。
WIDIn は、CLIP などの事前トレーニング済みビジョン言語モデルと、MoCo や BERT などの個別にトレーニングされたユニモーダル モデルの両方に適用できます。
3 つのドメイン一般化データセットに関する実験研究により、私たちのアプローチの有効性が実証されています。
要約(オリジナル)
Language has been useful in extending the vision encoder to data from diverse distributions without empirical discovery in training domains. However, as the image description is mostly at coarse-grained level and ignores visual details, the resulted embeddings are still ineffective in overcoming complexity of domains at inference time. We present a self-supervision framework WIDIn, Wording Images for Domain-Invariant representation, to disentangle discriminative visual representation, by only leveraging data in a single domain and without any test prior. Specifically, for each image, we first estimate the language embedding with fine-grained alignment, which can be consequently used to adaptively identify and then remove domain-specific counterpart from the raw visual embedding. WIDIn can be applied to both pretrained vision-language models like CLIP, and separately trained uni-modal models like MoCo and BERT. Experimental studies on three domain generalization datasets demonstrate the effectiveness of our approach.
arxiv情報
著者 | Jiawei Ma,Yulei Niu,Shiyuan Huang,Guangxing Han,Shih-Fu Chang |
発行日 | 2024-05-28 17:46:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google