Benchmarking Ultra-High-Definition Image Reflection Removal

要約

深層学習ベースの手法は、単一画像反射除去 (SIRR) のタスクにおいて大きな成功を収めています。
ただし、これらの方法の大部分は、高解像度/標準解像度 (HD/SD) 画像に焦点を当てており、超高解像度 (UHD) 画像などの高解像度画像は無視されています。
最新のデバイスでキャプチャされた UHD 画像の普及が進む中、このホワイト ペーパーでは、UHD SIRR の問題に対処することを目的としています。
具体的には、まず 2 つの大規模 UHD データセット、UHDRR4K と UHDRR8K を合成します。
UHDRR4K データセットは、トレーニング用とテスト用のそれぞれ $2,999$ と $168$ の 4 つ組の画像で構成され、UHDRR8K データセットには、$1,014$ と $105$ の 4 つ組が含まれています。
私たちの知る限り、これら 2 つのデータセットは、SIRR にとって最初の最大規模の UHD データセットです。
次に、提案されたデータセットを使用して、6 つの最先端の SIRR 手法の包括的な評価を実行します。
結果に基づいて、UHD 画像に適用した場合のこれらの方法の長所と制限について詳細に説明します。
最後に、反射除去のための RRFormer という名前のトランスフォーマー ベースのアーキテクチャを紹介します。
RRFormer は、Prepossessing Embedding モジュール、セルフアテンション特徴抽出モジュール、およびマルチスケール空間特徴抽出モジュールの 3 つのモジュールで構成されます。
これらのモジュールは、ハイパーコラム特徴、全体的および部分的注意特徴、およびマルチスケール空間特徴をそれぞれ抽出します。
効果的なトレーニングを確実にするために、損失関数でピクセル損失、特徴損失、敵対的損失という 3 つの項を利用します。
私たちは実験結果を通じて、RRFormer が非 UHD データセットと私たちが提案する UHDRR データセットの両方で最先端のパフォーマンスを達成することを実証します。
コードとデータセットは、https://github.com/Liar-zzy/Benchmarking-Ultra-High-Definition-Single-Image-Reflection-Removal で公開されています。

要約(オリジナル)

Deep learning based methods have achieved significant success in the task of single image reflection removal (SIRR). However, the majority of these methods are focused on High-Definition/Standard-Definition (HD/SD) images, while ignoring higher resolution images such as Ultra-High-Definition (UHD) images. With the increasing prevalence of UHD images captured by modern devices, in this paper, we aim to address the problem of UHD SIRR. Specifically, we first synthesize two large-scale UHD datasets, UHDRR4K and UHDRR8K. The UHDRR4K dataset consists of $2,999$ and $168$ quadruplets of images for training and testing respectively, and the UHDRR8K dataset contains $1,014$ and $105$ quadruplets. To the best of our knowledge, these two datasets are the first largest-scale UHD datasets for SIRR. Then, we conduct a comprehensive evaluation of six state-of-the-art SIRR methods using the proposed datasets. Based on the results, we provide detailed discussions regarding the strengths and limitations of these methods when applied to UHD images. Finally, we present a transformer-based architecture named RRFormer for reflection removal. RRFormer comprises three modules, namely the Prepossessing Embedding Module, Self-attention Feature Extraction Module, and Multi-scale Spatial Feature Extraction Module. These modules extract hypercolumn features, global and partial attention features, and multi-scale spatial features, respectively. To ensure effective training, we utilize three terms in our loss function: pixel loss, feature loss, and adversarial loss. We demonstrate through experimental results that RRFormer achieves state-of-the-art performance on both the non-UHD dataset and our proposed UHDRR datasets. The code and datasets are publicly available at https://github.com/Liar-zzy/Benchmarking-Ultra-High-Definition-Single-Image-Reflection-Removal.

arxiv情報

著者 Zhenyuan Zhang,Zhenbo Song,Kaihao Zhang,Zhaoxin Fan,Jianfeng Lu
発行日 2024-11-08 15:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク