要約
正・逆トーンマッピングやカラーグレーディングなど、多くの画像補正・編集作業では、一意な解があるわけではなく、それぞれが異なるスタイルを表す様々な解が存在する。にもかかわらず、既存の学習ベースの手法は、このスタイルを無視して、一意なマッピングを学習しようとする。本研究では、画像ペアのコレクションからスタイルに関する情報を抽出し、2次元または3次元のベクトルに符号化できることを示す。これにより、効率的な表現だけでなく、画像スタイルを編集するための解釈可能な潜在的空間が得られる。我々は、画像ペア間のグローバルなカラーマッピングを、画素の色の多項式基底を条件とする、カスタム正規化フローとして表現する。このようなネットワークは、PCAやVAEよりも低次元空間における画像スタイルのエンコードに有効であり、40dBに近い精度を得ることができる(これは、最先端の手法に比べて約7〜10dBの改善である)。
要約(オリジナル)
Many image enhancement or editing operations, such as forward and inverse tone mapping or color grading, do not have a unique solution, but instead a range of solutions, each representing a different style. Despite this, existing learning-based methods attempt to learn a unique mapping, disregarding this style. In this work, we show that information about the style can be distilled from collections of image pairs and encoded into a 2- or 3-dimensional vector. This gives us not only an efficient representation but also an interpretable latent space for editing the image style. We represent the global color mapping between a pair of images as a custom normalizing flow, conditioned on a polynomial basis of the pixel color. We show that such a network is more effective than PCA or VAE at encoding image style in low-dimensional space and lets us obtain an accuracy close to 40 dB, which is about 7-10 dB improvement over the state-of-the-art methods.
arxiv情報
著者 | Aamir Mustafa,Param Hanji,Rafal K. Mantiuk |
発行日 | 2022-10-04 16:10:28+00:00 |
arxivサイト | arxiv_id(pdf) |