Multi-crop Contrastive Learning for Unsupervised Image-to-Image Translation

要約

タイトル:マルチクロップコントラスティブラーニングによる教師なし画像変換

要約:

– コントラスティブラーニングに基づく画像変換手法は、多くのタスクで最高の結果を示した。
– 以前の手法では、ネガティブは入力特徴空間からサンプリングされ、ネガティブが多様性に欠けることがあった。
– 以前の手法では、生成された画像とターゲットドメインの実際の画像の間のドメインの一貫性を無視していた。
– この論文では、教師なしの画像変換のための新しいコントラスティブラーニングフレームワーク、MCCUTを提案する。
– マルチクロップビューを利用してセンタークロップとランダムクロップを介してネガティブを生成し、ネガティブの多様性と品質を向上させる。
– 深層特徴空間で組み込みを制約するための新しいドメインの一貫性損失関数を数式化する。
– PAIRSネットワークに位置情報を埋め込んだデュアル座標チャンネルの注意力ネットワークをDCSEモジュールと呼び、ジェネレーターの設計にDCSEモジュールを採用し、重みの大きいチャンネルにもっと注意を払わせる。
– 多くの画像変換タスクにおいて、本手法は最高の結果を達成し、比較実験と異なる研究によって、本手法の利点が証明された。

要約(オリジナル)

Recently, image-to-image translation methods based on contrastive learning achieved state-of-the-art results in many tasks. However, the negatives are sampled from the input feature spaces in the previous work, which makes the negatives lack diversity. Moreover, in the latent space of the embedings,the previous methods ignore domain consistency between the generated image and the real images of target domain. In this paper, we propose a novel contrastive learning framework for unpaired image-to-image translation, called MCCUT. We utilize the multi-crop views to generate the negatives via the center-crop and the random-crop, which can improve the diversity of negatives and meanwhile increase the quality of negatives. To constrain the embedings in the deep feature space,, we formulate a new domain consistency loss function, which encourages the generated images to be close to the real images in the embedding space of same domain. Furthermore, we present a dual coordinate channel attention network by embedding positional information into SENet, which called DCSE module. We employ the DCSE module in the design of generator, which makes the generator pays more attention to channels with greater weight. In many image-to-image translation tasks, our method achieves state-of-the-art results, and the advantages of our method have been proved through extensive comparison experiments and ablation research.

arxiv情報

著者 Chen Zhao,Wei-Ling Cai,Zheng Yuan,Cheng-Wei Hu
発行日 2023-04-24 16:20:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク