Unsupervised Structure-Consistent Image-to-Image Translation

要約

Swapping Autoencoder は、詳細な画像操作と画像から画像への変換において最先端のパフォーマンスを達成しました。
勾配反転レイヤーに基づくシンプルで効果的な補助モジュールを導入することで、この作業を改善します。
補助モジュールの損失により、ジェネレーターはすべてゼロのテクスチャ コードで画像を再構築することを学習し、構造とテクスチャ情報の間のより良いもつれの解消を促進します。
提案された属性ベースの転送方法は、セマンティック マスクを使用せずに構造情報を保持しながら、スタイル転送の洗練された制御を可能にします。
画像を操作するには、オブジェクトのジオメトリと入力画像の一般的なスタイルの両方を、構造の一貫性を強制する追加の制約を使用して 2 つの潜在的なコードにエンコードします。
さらに、補助損失により、トレーニング時間が大幅に短縮されます。
提案されたモデルの優位性は、最新技術が失敗することが知られている衛星画像などの複雑なドメインで実証されています。
最後に、マルチモーダル画像生成技術で同等の結果を達成しながら、モデルが幅広いデータセットの品質指標を改善することを示します。

要約(オリジナル)

The Swapping Autoencoder achieved state-of-the-art performance in deep image manipulation and image-to-image translation. We improve this work by introducing a simple yet effective auxiliary module based on gradient reversal layers. The auxiliary module’s loss forces the generator to learn to reconstruct an image with an all-zero texture code, encouraging better disentanglement between the structure and texture information. The proposed attribute-based transfer method enables refined control in style transfer while preserving structural information without using a semantic mask. To manipulate an image, we encode both the geometry of the objects and the general style of the input images into two latent codes with an additional constraint that enforces structure consistency. Moreover, due to the auxiliary loss, training time is significantly reduced. The superiority of the proposed model is demonstrated in complex domains such as satellite images where state-of-the-art are known to fail. Lastly, we show that our model improves the quality metrics for a wide range of datasets while achieving comparable results with multi-modal image generation techniques.

arxiv情報

著者 Shima Shahfar,Charalambos Poullis
発行日 2022-08-24 13:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク