A Perceptually Optimized and Self-Calibrated Tone Mapping Operator

要約

ハイ ダイナミック レンジ (HDR) 写真の人気が高まり、アクセスしやすくなるにつれて、ダイナミック レンジ圧縮のためのトーン マッピング オペレーター (TMO) の要求が実際上高まっています。
この論文では、自己調整され知覚的に最適化される 2 段階のニューラル ネットワーク ベースの TMO を開発します。
ステージ 1 では、人間の視覚系の初期段階の生理学を動機として、まず HDR 画像を正規化されたラプラシアン ピラミッドに分解します。
次に、2 つの軽量ディープ ニューラル ネットワーク (DNN) を使用し、正規化された表現を入力として受け取り、対応する LDR 画像のラプラシアン ピラミッドを推定します。
トーン マッピングされた画質に対する人間の判断に一致する知覚指標である正規化ラプラシアン ピラミッド距離 (NLPD) を最小限に抑えることで、トーン マッピング ネットワークを最適化します。
ステージ 2 では、入力 HDR 画像が自己調整されて、最終的な LDR 画像が計算されます。
同じ HDR 画像を、異なる最大輝度で再スケーリングして学習されたトーン マッピング ネットワークに供給し、細部の可視性と彩度が異なる擬似多重露出画像スタックを生成します。
次に、別の軽量 DNN をトレーニングして、多重露出画像融合用の構造類似性インデックス (MEF-SSIM) のバリアントを最大化することで、LDR 画像スタックを目的の LDR 画像に融合します。これは、融合された画像の品質に知覚的に関連していることが証明されています。
MEF を介して提案された自己キャリブレーション メカニズムにより、TMO は生理学主導でありながら、未キャリブレーションの HDR 画像を受け入れることができます。
広範な実験により、私たちの方法で一貫して優れた視覚品質の画像が生成されることがわかりました。
さらに、私たちのメソッドは 3 つの軽量 DNN に基づいて構築されているため、ローカル TMO の中で最も高速なものの 1 つとなります。

要約(オリジナル)

With the increasing popularity and accessibility of high dynamic range (HDR) photography, tone mapping operators (TMOs) for dynamic range compression are practically demanding. In this paper, we develop a two-stage neural network-based TMO that is self-calibrated and perceptually optimized. In Stage one, motivated by the physiology of the early stages of the human visual system, we first decompose an HDR image into a normalized Laplacian pyramid. We then use two lightweight deep neural networks (DNNs), taking the normalized representation as input and estimating the Laplacian pyramid of the corresponding LDR image. We optimize the tone mapping network by minimizing the normalized Laplacian pyramid distance (NLPD), a perceptual metric aligning with human judgments of tone-mapped image quality. In Stage two, the input HDR image is self-calibrated to compute the final LDR image. We feed the same HDR image but rescaled with different maximum luminances to the learned tone mapping network, and generate a pseudo-multi-exposure image stack with different detail visibility and color saturation. We then train another lightweight DNN to fuse the LDR image stack into a desired LDR image by maximizing a variant of the structural similarity index for multi-exposure image fusion (MEF-SSIM), which has been proven perceptually relevant to fused image quality. The proposed self-calibration mechanism through MEF enables our TMO to accept uncalibrated HDR images, while being physiology-driven. Extensive experiments show that our method produces images with consistently better visual quality. Additionally, since our method builds upon three lightweight DNNs, it is among the fastest local TMOs.

arxiv情報

著者 Peibei Cao,Chenyang Le,Yuming Fang,Kede Ma
発行日 2023-08-25 10:48:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク