要約
さまざまな露出でキャプチャされた完全に位置合わせされた一連の画像を融合することで、ダイナミック レンジが制限されたセンサーによるハイ ダイナミック レンジ (HDR) イメージングに近づく大きな可能性が示されました。
しかし、シーン オブジェクトやカメラの大きな動きが存在する場合、ミスアラインメントはほとんど避けられず、悪名高い「ゴースト」アーティファクトにつながります。
さらに、暗い領域のノイズや明るすぎる領域の彩度などの要因も、HDR 画像に局所的な画像の詳細を埋めることができない場合があります。
この論文は、Swin Transformer に基づく新しい多重露出融合モデルを提供します。
特に、特徴抽出レイヤーと統合された特徴選択ゲートを設計して、外れ値を検出し、それらを HDR 画像合成からブロックします。
適切に配置され、適切に露出された領域によって欠落しているローカルの詳細を再構築するために、自己注意メカニズムによる露出空間ピラミッドの長距離コンテキスト依存性を利用します。
さまざまなベンチマーク データセットに対して、広範な数値的および視覚的評価が実施されています。
実験は、私たちのモデルが現在の最高性能の多重露出 HDR イメージング モデルと同等の精度を達成しながら、より高い効率を得ていることを示しています。
要約(オリジナル)
Fusing a sequence of perfectly aligned images captured at various exposures, has shown great potential to approach High Dynamic Range (HDR) imaging by sensors with limited dynamic range. However, in the presence of large motion of scene objects or the camera, mis-alignment is almost inevitable and leads to the notorious “ghost” artifacts. Besides, factors such as the noise in the dark region or color saturation in the over-bright region may also fail to fill local image details to the HDR image. This paper provides a novel multi-exposure fusion model based on Swin Transformer. Particularly, we design feature selection gates, which are integrated with the feature extraction layers to detect outliers and block them from HDR image synthesis. To reconstruct the missing local details by well-aligned and properly-exposed regions, we exploit the long distance contextual dependency in the exposure-space pyramid by the self-attention mechanism. Extensive numerical and visual evaluation has been conducted on a variety of benchmark datasets. The experiments show that our model achieves the accuracy on par with current top performing multi-exposure HDR imaging models, while gaining higher efficiency.
arxiv情報
著者 | Rui Zhou,Yan Niu |
発行日 | 2023-03-15 15:38:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google