Domain Agnostic Image-to-image Translation using Low-Resolution Conditioning

要約

タイトル:低解像度条件付きを使用したドメイン不可知の画像からの画像への変換

要約:

– 画像から画像への変換(i2i)方法は、通常、翻訳に使用される画像がコンテンツ(例:ポーズ)を共有していることを前提として、各ドメイン固有の情報(スタイル)を持っていることを目的としています。目標画像に基づき、このような方法は、目標スタイルを抽出し、ソース画像コンテンツと組み合わせ、ドメイン間の一貫性を保ちます。
– 著者らは、従来の視点から逸脱して、ターゲットドメインが非常に低解像度(LR)画像で表されている場合を考慮し、関連がある細かい問題のためのドメイン不可知のi2i法を提案しています。具体的には、ドメイン不可知アプローチでは、ソース画像の視覚的特徴とLRターゲット画像の低周波情報(例:ポーズ、色)を組み合わせた画像を生成することを目的としています。
– 新しいアプローチは、生成モデルのトレーニングに基づくもので、関連するソース画像の独特な情報を共有しつつ、ダウンスケーリングされたときにLRターゲット画像と正しく一致する画像を生成することを狙っています。
– CelebA-HQおよびAFHQデータセットを使用して、著者らは視覚的な品質の改善を実証しました。定性的および定量的な結果により、ドメイン内画像変換に取り組む場合、この方法は、StarGAN v2などの最新の方法と比較してリアルなサンプルを生成することがわかります。 アブレーション研究により、この方法は色の変更にロバストであり、アウトオブディストリビューション画像に適用可能であり、最終結果に手動制御が可能であることがわかります。

要約(オリジナル)

Generally, image-to-image translation (i2i) methods aim at learning mappings across domains with the assumption that the images used for translation share content (e.g., pose) but have their own domain-specific information (a.k.a. style). Conditioned on a target image, such methods extract the target style and combine it with the source image content, keeping coherence between the domains. In our proposal, we depart from this traditional view and instead consider the scenario where the target domain is represented by a very low-resolution (LR) image, proposing a domain-agnostic i2i method for fine-grained problems, where the domains are related. More specifically, our domain-agnostic approach aims at generating an image that combines visual features from the source image with low-frequency information (e.g. pose, color) of the LR target image. To do so, we present a novel approach that relies on training the generative model to produce images that both share distinctive information of the associated source image and correctly match the LR target image when downscaled. We validate our method on the CelebA-HQ and AFHQ datasets by demonstrating improvements in terms of visual quality. Qualitative and quantitative results show that when dealing with intra-domain image translation, our method generates realistic samples compared to state-of-the-art methods such as StarGAN v2. Ablation studies also reveal that our method is robust to changes in color, it can be applied to out-of-distribution images, and it allows for manual control over the final results.

arxiv情報

著者 Mohamed Abid,Arman Afrasiyabi,Ihsen Hedhli,Jean-François Lalonde,Christian Gagné
発行日 2023-05-11 03:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク