Prompt-Guided Image-Adaptive Neural Implicit Lookup Tables for Interpretable Image Enhancement

要約

この論文では、「露出」や「コントラスト」などのわかりやすい名前のフィルターパラメータを調整することで画質を向上させる技術である、解釈可能な画像強調の概念を詳しく掘り下げます。
事前定義された画像編集フィルターを使用するのとは異なり、私たちのフレームワークは、トレーニングを通じて解釈可能な名前を取得する学習可能なフィルターを利用します。
私たちの貢献は 2 つあります。
まず、画像適応ニューラル暗黙的ルックアップ テーブルと呼ばれる新しいフィルター アーキテクチャを導入します。これは、多層パーセプトロンを使用して、入力特徴空間から出力色空間への変換を暗黙的に定義します。
画像適応パラメータを入力特徴量に直接組み込むことで、表現力の高いフィルタを実現します。
次に、各フィルターに解釈可能な名前を割り当てるためのプロンプト ガイダンス損失を導入します。
私たちは、視覚と言語モデルをガイドプロンプトとともに使用して、露出やコントラストなどの補正結果の視覚的な印象を評価します。
各フィルターが他の属性に影響を与えることなく、ターゲットの視覚的印象のみに影響を与えるように制約を定義します。これにより、必要なフィルター効果を得ることができます。
実験結果は、ターゲット結果を予測するために最適化されたフィルターのおかげで、私たちの方法が既存の事前定義されたフィルターベースの方法よりも優れていることを示しています。
私たちのソースコードは https://github.com/satoshi-komuro/PG-IA-NILUT で入手できます。

要約(オリジナル)

In this paper, we delve into the concept of interpretable image enhancement, a technique that enhances image quality by adjusting filter parameters with easily understandable names such as ‘Exposure’ and ‘Contrast’. Unlike using predefined image editing filters, our framework utilizes learnable filters that acquire interpretable names through training. Our contribution is two-fold. Firstly, we introduce a novel filter architecture called an image-adaptive neural implicit lookup table, which uses a multilayer perceptron to implicitly define the transformation from input feature space to output color space. By incorporating image-adaptive parameters directly into the input features, we achieve highly expressive filters. Secondly, we introduce a prompt guidance loss to assign interpretable names to each filter. We evaluate visual impressions of enhancement results, such as exposure and contrast, using a vision and language model along with guiding prompts. We define a constraint to ensure that each filter affects only the targeted visual impression without influencing other attributes, which allows us to obtain the desired filter effects. Experimental results show that our method outperforms existing predefined filter-based methods, thanks to the filters optimized to predict target results. Our source code is available at https://github.com/satoshi-kosugi/PG-IA-NILUT.

arxiv情報

著者 Satoshi Kosugi
発行日 2024-08-20 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク