Iterative Prompt Learning for Unsupervised Backlit Image Enhancement

要約

我々は、ピクセルレベルの画像強化のための対照言語画像事前トレーニング(CLIP)の可能性を探ることにより、CLIP-LITと略される新しい教師なしバックライト画像強化方法を提案します。
オープンワールド CLIP 事前処理は、逆光画像と明るい画像を区別するのに役立つだけでなく、異なる輝度を持つ不均一な領域を認識するのにも役立ち、強調ネットワークの最適化を容易にすることを示します。
高レベルの画像操作タスクとは異なり、CLIP を拡張タスクに直接適用することは、正確なプロンプトを見つけることが難しいため、簡単ではありません。
この問題を解決するために、CLIP 内のプロンプト (ネガティブ/ポジティブ サンプル) と対応する画像 (逆光画像/明るい画像) の間のテキストと画像の類似性を制約することで、最初のプロンプト ペアを最初に学習するプロンプト学習フレームワークを考案しました。
潜在的な空間。
次に、強化された結果と最初のプロンプトのペアの間のテキストと画像の類似性に基づいて強化ネットワークをトレーニングします。
最初のプロンプト ペアの精度をさらに向上させるために、プロンプト学習フレームワークを繰り返し微調整し、ランク学習を通じて逆光画像、強調された結果、明るい画像の間の分布ギャップを削減し、強調パフォーマンスを向上させます。
私たちの方法では、視覚的に満足のいく結果が得られるまで、プロンプト学習フレームワークと強化ネットワークの更新を交互に繰り返します。
広範な実験により、私たちの方法は、ペアのデータを必要とせずに、視覚的な品質と一般化能力の点で最先端の方法よりも優れていることが実証されました。

要約(オリジナル)

We propose a novel unsupervised backlit image enhancement method, abbreviated as CLIP-LIT, by exploring the potential of Contrastive Language-Image Pre-Training (CLIP) for pixel-level image enhancement. We show that the open-world CLIP prior not only aids in distinguishing between backlit and well-lit images, but also in perceiving heterogeneous regions with different luminance, facilitating the optimization of the enhancement network. Unlike high-level and image manipulation tasks, directly applying CLIP to enhancement tasks is non-trivial, owing to the difficulty in finding accurate prompts. To solve this issue, we devise a prompt learning framework that first learns an initial prompt pair by constraining the text-image similarity between the prompt (negative/positive sample) and the corresponding image (backlit image/well-lit image) in the CLIP latent space. Then, we train the enhancement network based on the text-image similarity between the enhanced result and the initial prompt pair. To further improve the accuracy of the initial prompt pair, we iteratively fine-tune the prompt learning framework to reduce the distribution gaps between the backlit images, enhanced results, and well-lit images via rank learning, boosting the enhancement performance. Our method alternates between updating the prompt learning framework and enhancement network until visually pleasing results are achieved. Extensive experiments demonstrate that our method outperforms state-of-the-art methods in terms of visual quality and generalization ability, without requiring any paired data.

arxiv情報

著者 Zhexin Liang,Chongyi Li,Shangchen Zhou,Ruicheng Feng,Chen Change Loy
発行日 2023-09-29 13:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク