One-shot Unsupervised Domain Adaptation with Personalized Diffusion Models

要約

単一のラベルなしデータが利用可能な、ラベル付きソース ドメインからターゲット ドメインにセグメンテーション モデルを適応させることは、ドメイン適応において最も困難な問題の 1 つであり、ワンショットの教師なしドメイン適応 (OSUDA) としても知られています。
これまでの研究のほとんどは、ソース画像がターゲット ドメインの外観を持つように様式化されるスタイル転送技術に依存することでこの問題に対処していました。
ターゲットの「テクスチャ」情報のみを転送するという一般的な概念から離れ、テキストから画像への拡散モデル (安定拡散など) を利用して、スタイルを忠実に描写するだけでなく、フォトリアリスティックな画像を含む合成ターゲット データセットを生成します。
ターゲット ドメインのさまざまなシーンだけでなく、さまざまなコンテキストにおける斬新なシーンも特徴です。
私たちのメソッド Data Augmentation with diffUsion Models (DATUM) のテキスト インターフェイスは、単一のトレーニング画像の元の空間コンテキストを尊重しながら、目的のセマンティック概念に向かって画像の生成を導く可能性を与えてくれますが、これは既存の OSUDA メソッドでは不可能です。
標準ベンチマークに関する広範な実験により、当社の DATUM は最先端の OSUDA メソッドを最大 +7.1% 上回ることがわかりました。
実装は https://github.com/yasserben/DATUM で入手できます。

要約(オリジナル)

Adapting a segmentation model from a labeled source domain to a target domain, where a single unlabeled datum is available, is one the most challenging problems in domain adaptation and is otherwise known as one-shot unsupervised domain adaptation (OSUDA). Most of the prior works have addressed the problem by relying on style transfer techniques, where the source images are stylized to have the appearance of the target domain. Departing from the common notion of transferring only the target “texture” information, we leverage text-to-image diffusion models (e.g., Stable Diffusion) to generate a synthetic target dataset with photo-realistic images that not only faithfully depict the style of the target domain, but are also characterized by novel scenes in diverse contexts. The text interface in our method Data AugmenTation with diffUsion Models (DATUM) endows us with the possibility of guiding the generation of images towards desired semantic concepts while respecting the original spatial context of a single training image, which is not possible in existing OSUDA methods. Extensive experiments on standard benchmarks show that our DATUM surpasses the state-of-the-art OSUDA methods by up to +7.1%. The implementation is available at https://github.com/yasserben/DATUM

arxiv情報

著者 Yasser Benigmim,Subhankar Roy,Slim Essid,Vicky Kalogeiton,Stéphane Lathuilière
発行日 2023-06-16 16:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク