要約
クロスドメイン検索では、2 つの視覚ドメインにわたって同じ意味カテゴリから画像を識別するモデルが必要です。
たとえば、オブジェクトのスケッチが与えられた場合、モデルはその実際の画像をオンライン ストアのカタログから取得する必要があります。
このような問題に対する標準的なアプローチは、ユークリッド距離が類似性を反映する画像の特徴空間を学習することです。
取得に費用がかかる人間による注釈がなくても、ラベルのない画像をトレーニングに使用する従来の方法は、かなりうまく機能します。
私たちの問題制約は、2 つのドメインがトレーニング データ内で共通のカテゴリを必ずしも共有しないシナリオにこれをさらに発展させます。
これは、問題の 2 つのドメインが、異なる人の ID を記録するいくつかの生体センサーの異なるバージョンに由来する場合に発生する可能性があります。
私たちは、ドメイン全体でこれらの欠落しているカテゴリの例を埋めるための合成データを生成するという簡単な解決策を提案します。
これは、ある視覚領域から別の視覚領域への画像の変換を保持するカテゴリを介して行われます。
私たちは、この翻訳のために特別にトレーニングされたアプローチと、プロンプトを介して事前トレーニングされた大規模なテキストから画像への拡散モデルをプロンプト経由で使用できるアプローチを比較し、後者の方がより優れた置換合成データを生成できることを発見しました。
より正確なクロスドメイン検索モデルを実現します。
当社の最高の SynCDR モデルは、従来技術を最大 15\% 上回るパフォーマンスを発揮します。
私たちの作業のコードは https://github.com/samarth4149/SynCDR で入手できます。
要約(オリジナル)
In cross-domain retrieval, a model is required to identify images from the same semantic category across two visual domains. For instance, given a sketch of an object, a model needs to retrieve a real image of it from an online store’s catalog. A standard approach for such a problem is learning a feature space of images where Euclidean distances reflect similarity. Even without human annotations, which may be expensive to acquire, prior methods function reasonably well using unlabeled images for training. Our problem constraint takes this further to scenarios where the two domains do not necessarily share any common categories in training data. This can occur when the two domains in question come from different versions of some biometric sensor recording identities of different people. We posit a simple solution, which is to generate synthetic data to fill in these missing category examples across domains. This, we do via category preserving translation of images from one visual domain to another. We compare approaches specifically trained for this translation for a pair of domains, as well as those that can use large-scale pre-trained text-to-image diffusion models via prompts, and find that the latter can generate better replacement synthetic data, leading to more accurate cross-domain retrieval models. Our best SynCDR model can outperform prior art by up to 15\%. Code for our work is available at https://github.com/samarth4149/SynCDR .
arxiv情報
著者 | Samarth Mishra,Carlos D. Castillo,Hongcheng Wang,Kate Saenko,Venkatesh Saligrama |
発行日 | 2024-03-19 16:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google