Iterative Prompt Learning for Unsupervised Backlit Image Enhancement

要約

ピクセルレベルの画像強調のためのコントラスト言語画像事前トレーニング (CLIP) の可能性を探ることにより、CLIP-LIT と略される、新しい教師なしバックライト画像強調方法を提案します。
オープンワールドのCLIPプリアは、バックライトと明るい画像を区別するのに役立つだけでなく、輝度の異なる異種領域を認識して、拡張ネットワークの最適化を促進することも示しています.
高レベルの画像操作タスクとは異なり、CLIP を拡張タスクに直接適用することは、正確なプロンプトを見つけるのが難しいため、自明ではありません。
この問題を解決するために、CLIP のプロンプト (ネガティブ/ポジティブ サンプル) と対応する画像 (バックライト画像/明るい画像) の間のテキスト画像の類似性を制約することによって、最初のプロンプト ペアを最初に学習するプロンプト学習フレームワークを考案しました。
潜在空間。
次に、強化された結果と最初のプロンプト ペアの間のテキストと画像の類似性に基づいて、強化ネットワークをトレーニングします。
初期プロンプトペアの精度をさらに向上させるために、プロンプト学習フレームワークを繰り返し微調整して、ランク学習によって逆光画像、強化された結果、明るい画像の間の分布ギャップを減らし、強化パフォーマンスを向上させます。
私たちの方法は、視覚的に満足のいく結果が得られるまで、プロンプト学習フレームワークと強化ネットワークの更新を交互に繰り返します。
広範な実験により、対になったデータを必要とせずに、視覚的な品質と一般化能力の点で、私たちの方法が最先端の方法よりも優れていることが実証されています。

要約(オリジナル)

We propose a novel unsupervised backlit image enhancement method, abbreviated as CLIP-LIT, by exploring the potential of Contrastive Language-Image Pre-Training (CLIP) for pixel-level image enhancement. We show that the open-world CLIP prior not only aids in distinguishing between backlit and well-lit images, but also in perceiving heterogeneous regions with different luminance, facilitating the optimization of the enhancement network. Unlike high-level and image manipulation tasks, directly applying CLIP to enhancement tasks is non-trivial, owing to the difficulty in finding accurate prompts. To solve this issue, we devise a prompt learning framework that first learns an initial prompt pair by constraining the text-image similarity between the prompt (negative/positive sample) and the corresponding image (backlit image/well-lit image) in the CLIP latent space. Then, we train the enhancement network based on the text-image similarity between the enhanced result and the initial prompt pair. To further improve the accuracy of the initial prompt pair, we iteratively fine-tune the prompt learning framework to reduce the distribution gaps between the backlit images, enhanced results, and well-lit images via rank learning, boosting the enhancement performance. Our method alternates between updating the prompt learning framework and enhancement network until visually pleasing results are achieved. Extensive experiments demonstrate that our method outperforms state-of-the-art methods in terms of visual quality and generalization ability, without requiring any paired data.

arxiv情報

著者 Zhexin Liang,Chongyi Li,Shangchen Zhou,Ruicheng Feng,Chen Change Loy
発行日 2023-03-30 17:37:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク