Learning Diverse Tone Styles for Image Retouching

要約

与えられた画像の視覚的に心地よい表現を再生成することを目的とした画像レタッチは、ユーザーがさまざまな美的感覚を持っている主観的な作業です。
既存の方法のほとんどは、決定論的モデルを展開して特定の専門家からレタッチ スタイルを学習するため、多様な主観的好みに柔軟に対応できません。
その上、異なる画像に対する対象を絞った処理による専門家の本質的な多様性も不十分に説明されています。
このような問題を回避するために、フローベースのアーキテクチャを正規化して多様な画像レタッチを学習することを提案します。
出力画像を直接生成する現在のフローベースの方法とは異なり、スタイル ドメインでの学習は、(i) 画像コンテンツからレタッチ スタイルを解きほぐし、(ii) 安定したスタイル プレゼンテーション フォームにつながり、(iii) 回避できると主張します。
空間的不調和効果。
意味のあるイメージ トーン スタイル表現を取得するために、スタイル エンコーダー、条件付き RetouchNet、およびイメージ トーン スタイル正規化フロー (TSFlow) モジュールで構成されるジョイント トレーニング パイプラインが精巧に設計されています。
特に、スタイル エンコーダーは入力画像のターゲット スタイル表現を予測します。これは、レタッチ用の RetouchNet の条件情報として機能します。TSFlow はスタイル表現ベクトルをフォワード パスでガウス分布にマッピングします。
トレーニング後、TSFlow はガウス分布からサンプリングすることにより、さまざまなイメージ トーン スタイルのベクトルを生成できます。
MIT-Adobe FiveK および PPR10K データセットでの広範な実験は、提案された方法が最先端の方法に対して有利に機能し、さまざまな人間の美的嗜好を満たす多様な結果を生成するのに効果的であることを示しています。
ソース コードと事前トレーニング済みのモデルは、https://github.com/SSRHeart/TSFlow で公開されています。

要約(オリジナル)

Image retouching, aiming to regenerate the visually pleasing renditions of given images, is a subjective task where the users are with different aesthetic sensations. Most existing methods deploy a deterministic model to learn the retouching style from a specific expert, making it less flexible to meet diverse subjective preferences. Besides, the intrinsic diversity of an expert due to the targeted processing on different images is also deficiently described. To circumvent such issues, we propose to learn diverse image retouching with normalizing flow-based architectures. Unlike current flow-based methods which directly generate the output image, we argue that learning in a style domain could (i) disentangle the retouching styles from the image content, (ii) lead to a stable style presentation form, and (iii) avoid the spatial disharmony effects. For obtaining meaningful image tone style representations, a joint-training pipeline is delicately designed, which is composed of a style encoder, a conditional RetouchNet, and the image tone style normalizing flow (TSFlow) module. In particular, the style encoder predicts the target style representation of an input image, which serves as the conditional information in the RetouchNet for retouching, while the TSFlow maps the style representation vector into a Gaussian distribution in the forward pass. After training, the TSFlow can generate diverse image tone style vectors by sampling from the Gaussian distribution. Extensive experiments on MIT-Adobe FiveK and PPR10K datasets show that our proposed method performs favorably against state-of-the-art methods and is effective in generating diverse results to satisfy different human aesthetic preferences. Source code and pre-trained models are publicly available at https://github.com/SSRHeart/TSFlow.

arxiv情報

著者 Haolin Wang,Jiawei Zhang,Ming Liu,Xiaohe Wu,Wangmeng Zuo
発行日 2022-11-22 15:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク