Rethinking the Paradigm of Content Constraints in GAN-based Unpaired Image-to-Image Translation

要約

ペアになっていない設定では、画像間変換 (I2I) タスクに対する十分なコンテンツ制約が不足しており、GAN ベースのアプローチは通常、モデルが崩壊する傾向があります。
現在のソリューションは、再構成ベースとシャム ネットワーク ベースの 2 つのカテゴリに分類できます。
前者では、変換または変換中の画像を完全に元の画像に戻すことができる必要がありますが、これは場合によっては厳密すぎるため、生成パフォーマンスが制限されます。
後者には、元の画像と生成された画像を特徴抽出器に入力し、その出力を照合することが含まれます。
これは十分に効率的ではなく、汎用の特徴抽出ツールは簡単に入手できません。
この論文では、\textbf{En}coder と de\textbf{Co} の同じ段階からのパッチレベルの特徴の潜在空間における表現の類似性を制約することにより、コンテンツを維持するためのシンプルだが効率的な方法である EnCo を提案します。
ジェネレーターのダー。
類似度関数には、現在 I2I タスクで広く使用されているコントラスト損失の代わりに、単純な MSE 損失を使用します。
この設計の利点により、EnCo トレーニングは非常に効率的であると同時に、エンコーダーの機能がデコードにさらにプラスの効果をもたらし、より満足のいく世代が生成されます。
さらに、パッチのサンプリングにおいて識別子が果たす役割を再考し、ランダム サンプリングに代わる識別的注意誘導 (DAG) パッチ サンプリング戦略を提案します。
DAG にはパラメーターがなく、必要な計算オーバーヘッドはごくわずかですが、モデルのパフォーマンスが大幅に向上します。
複数のデータセットに対する広範な実験により、EnCo の有効性と利点が実証され、以前の方法と比較して複数の最先端を実現しています。
私たちのコードは https://github.com/XiudingCai/EnCo-pytorch で入手できます。

要約(オリジナル)

In an unpaired setting, lacking sufficient content constraints for image-to-image translation (I2I) tasks, GAN-based approaches are usually prone to model collapse. Current solutions can be divided into two categories, reconstruction-based and Siamese network-based. The former requires that the transformed or transforming image can be perfectly converted back to the original image, which is sometimes too strict and limits the generative performance. The latter involves feeding the original and generated images into a feature extractor and then matching their outputs. This is not efficient enough, and a universal feature extractor is not easily available. In this paper, we propose EnCo, a simple but efficient way to maintain the content by constraining the representational similarity in the latent space of patch-level features from the same stage of the \textbf{En}coder and de\textbf{Co}der of the generator. For the similarity function, we use a simple MSE loss instead of contrastive loss, which is currently widely used in I2I tasks. Benefits from the design, EnCo training is extremely efficient, while the features from the encoder produce a more positive effect on the decoding, leading to more satisfying generations. In addition, we rethink the role played by discriminators in sampling patches and propose a discriminative attention-guided (DAG) patch sampling strategy to replace random sampling. DAG is parameter-free and only requires negligible computational overhead, while significantly improving the performance of the model. Extensive experiments on multiple datasets demonstrate the effectiveness and advantages of EnCo, and we achieve multiple state-of-the-art compared to previous methods. Our code is available at https://github.com/XiudingCai/EnCo-pytorch.

arxiv情報

著者 Xiuding Cai,Yaoyao Zhu,Dong Miao,Linjie Fu,Yu Yao
発行日 2023-12-31 12:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク