Unsupervised HDR Image and Video Tone Mapping via Contrastive Learning

要約

ハイ ダイナミック レンジ (HDR) 画像 (ビデオ) のキャプチャは、暗い領域と明るい領域の両方で詳細を明らかにできるため、魅力的です。
主流のスクリーンはロー ダイナミック レンジ (LDR) コンテンツのみをサポートするため、HDR 画像 (ビデオ) のダイナミック レンジを圧縮するには、トーン マッピング アルゴリズムが必要です。
イメージ トーン マッピングは広く調査されていますが、ビデオ トーン マッピングは、HDR-LDR ビデオ ペアがないため、特にディープ ラーニング ベースの方法では遅れをとっています。
この作業では、教師なしの画像とビデオのトーン マッピングのための統合フレームワーク (IVTMNet) を提案します。
教師なしトレーニングを改善するために、ドメインおよびインスタンス ベースの対照的な学習損失を提案します。
VGG などの汎用特徴抽出器を使用して類似性測定の特徴を抽出する代わりに、抽出された特徴の明るさとコントラストの集合である新しい潜在コードを提案して、異なるペアの類似性を測定します。
トーン マッピングされた結果の潜在コードを制約するために、2 つの負のペアと 3 つの正のペアを完全に構築します。
ビデオ トーン マッピングの場合、時間的特徴置換 (TFR) モジュールを提案して、時間相関を効率的に利用し、ビデオ トーン マッピング結果の時間的一貫性を向上させます。
ビデオ トーン マッピングの教師なしトレーニング プロセスを容易にするために、大規模なペアになっていない HDR-LDR ビデオ データセットを構築します。
実験結果は、私たちの方法が最先端の画像およびビデオトーンマッピング方法よりも優れていることを示しています。
私たちのコードとデータセットは、この作業が承認された後にリリースされます。

要約(オリジナル)

Capturing high dynamic range (HDR) images (videos) is attractive because it can reveal the details in both dark and bright regions. Since the mainstream screens only support low dynamic range (LDR) content, tone mapping algorithm is required to compress the dynamic range of HDR images (videos). Although image tone mapping has been widely explored, video tone mapping is lagging behind, especially for the deep-learning-based methods, due to the lack of HDR-LDR video pairs. In this work, we propose a unified framework (IVTMNet) for unsupervised image and video tone mapping. To improve unsupervised training, we propose domain and instance based contrastive learning loss. Instead of using a universal feature extractor, such as VGG to extract the features for similarity measurement, we propose a novel latent code, which is an aggregation of the brightness and contrast of extracted features, to measure the similarity of different pairs. We totally construct two negative pairs and three positive pairs to constrain the latent codes of tone mapped results. For video tone mapping, we propose a temporal-feature-replaced (TFR) module to efficiently utilize the temporal correlation and improve the temporal consistency of video tone-mapped results. We construct a large-scale unpaired HDR-LDR video dataset to facilitate the unsupervised training process for video tone mapping. Experimental results demonstrate that our method outperforms state-of-the-art image and video tone mapping methods. Our code and dataset will be released after the acceptance of this work.

arxiv情報

著者 Cong Cao,Huanjing Yue,Xin Liu,Jingyu Yang
発行日 2023-03-13 17:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク