LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data

要約

タイトル: LANIT:ラベル付けされていないデータのための言語駆動型画像変換
要約:

– 画像の変換技術は従来、一つのドメインアノテーションに強く依存する傾向があり、また、一つの画像に対して複数の属性を処理する能力が欠けていました。
– 最近の完全非教示学習法は、クラスタリング手法を採用することで、個々のドメインラベルを簡単に提供できますが、現実の状況には対応できず、ひとつのサンプルには複数の属性があることがあります。さらに、クラスターの意味は人間の理解に結びつけにくいという問題もあります。
– これらの問題を克服するために、LANguage-driven Image-to-image Translation(LANIT)モデルを提案します。このモデルでは、データセットで与えられたテキストの候補属性を利用し、画像と属性の類似度はサンプルごとのドメインラベルを示します。この形式は、ユーザーが言語のセットで目標ドメインを指定できるように多数のラベルを自然に可能にするため、マルチホットラベルを活用しています。
– 初期のプロンプトが不正確な場合に対処するために、プロンプト学習を提案します。さらに、変換された画像が対応するドメインにマップするように強制するドメイン正則化損失も提言されます。
– いくつかの標準ベンチマークでの実験により、LANITは既存のモデルと同等または優れたパフォーマンスを発揮することが示されました。

要約(オリジナル)

Existing techniques for image-to-image translation commonly have suffered from two critical problems: heavy reliance on per-sample domain annotation and/or inability of handling multiple attributes per image. Recent truly-unsupervised methods adopt clustering approaches to easily provide per-sample one-hot domain labels. However, they cannot account for the real-world setting: one sample may have multiple attributes. In addition, the semantics of the clusters are not easily coupled to the human understanding. To overcome these, we present a LANguage-driven Image-to-image Translation model, dubbed LANIT. We leverage easy-to-obtain candidate attributes given in texts for a dataset: the similarity between images and attributes indicates per-sample domain labels. This formulation naturally enables multi-hot label so that users can specify the target domain with a set of attributes in language. To account for the case that the initial prompts are inaccurate, we also present prompt learning. We further present domain regularization loss that enforces translated images be mapped to the corresponding domain. Experiments on several standard benchmarks demonstrate that LANIT achieves comparable or superior performance to existing models.

arxiv情報

著者 Jihye Park,Sunwoo Kim,Soohyun Kim,Seokju Cho,Jaejun Yoo,Youngjung Uh,Seungryong Kim
発行日 2023-04-24 08:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク