Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients

要約

画像から画像への変換は、コアの内容と構造を維持しながら、画像を 1 つの視覚領域から別の視覚領域に変換することに焦点を当てた、コンピューター ビジョンの重要な領域です。
ただし、この分野は 2 つの大きな課題に直面しています。1 つは、2 つのドメインからのデータがペアになっていないことが多く、敵対的生成ネットワークを効果的に訓練することが困難であることです。
第 2 に、既存の方法では画像生成中にアーチファクトや幻覚が発生する傾向があり、画像品質の低下につながります。
これらの問題に対処するために、この論文では、方向性勾配ヒストグラム (HOG) 機能を組み込んだ、対照的不対変換 (CUT) モデルに基づく、強化された教師なし画像間変換方法を提案します。
この新しいアプローチでは、入力画像と生成画像の HOG 特徴間の損失を最小限に抑えることで、意味ラベルがなくても画像の意味構造が確実に保存されます。
この方法は、合成ゲーム環境を GTA5 データセットから都市景観データセットの現実的な都市シーンに変換することでテストされ、幻覚の軽減と画質の向上において大幅な改善が実証されました。

要約(オリジナル)

Image-to-Image Translation is a vital area of computer vision that focuses on transforming images from one visual domain to another while preserving their core content and structure. However, this field faces two major challenges: first, the data from the two domains are often unpaired, making it difficult to train generative adversarial networks effectively; second, existing methods tend to produce artifacts or hallucinations during image generation, leading to a decline in image quality. To address these issues, this paper proposes an enhanced unsupervised image-to-image translation method based on the Contrastive Unpaired Translation (CUT) model, incorporating Histogram of Oriented Gradients (HOG) features. This novel approach ensures the preservation of the semantic structure of images, even without semantic labels, by minimizing the loss between the HOG features of input and generated images. The method was tested on translating synthetic game environments from GTA5 dataset to realistic urban scenes in cityscapes dataset, demonstrating significant improvements in reducing hallucinations and enhancing image quality.

arxiv情報

著者 Wanchen Zhao
発行日 2024-09-24 12:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク