Leveraging Inpainting for Single-Image Shadow Removal

要約

完全に監視された影の除去方法は、公開データセットで最高の復元品質を実現しますが、それでもいくらかの影の残骸が生成されます。
理由の 1 つは、大規模な影と影のない画像のペアが不足していることです。
教師なしメソッドは問題を軽減できますが、復元品質は完全教師ありメソッドよりもはるかに低くなります。
この研究では、画像修復データセット上で影除去ネットワークを事前トレーニングすると、影の残骸を大幅に削減できることがわかりました。単純なエンコーダ/デコーダ ネットワークは、すべての点で競争力のある復元品質を得ることができます。
わずか 10% の影と影のない画像のペアによる最先端の方法。
重み(IIW)に保存された情報を介して修復事前トレーニングの有無にかかわらずネットワークを分析した結果、修復事前トレーニングによって非シャドウ領域の復元品質が向上し、ネットワークの汎化能力が大幅に向上することがわかりました。
さらに、影の除去を微調整することで、ネットワークが影の領域の詳細を埋めることができます。
これらの観察に触発されて、私たちは影の除去と画像修復の両方を活用する適応型融合タスクとして影の除去を定式化します。
具体的には、2 つのエンコーダ、適応融合ブロック、およびデコーダから構成される適応融合ネットワークを開発します。
2 つのエンコーダは、それぞれ影画像と影でマスクされた画像から特徴を抽出する役割を果たします。
適応融合ブロックは、これらの機能を適応的な方法で組み合わせる役割を果たします。
最後に、デコーダは適応融合特徴を望ましい影のない結果に変換します。
広範な実験により、修復機能を備えた私たちの方法がすべての最先端の方法よりも優れていることがわかりました。

要約(オリジナル)

Fully-supervised shadow removal methods achieve the best restoration qualities on public datasets but still generate some shadow remnants. One of the reasons is the lack of large-scale shadow & shadow-free image pairs. Unsupervised methods can alleviate the issue but their restoration qualities are much lower than those of fully-supervised methods. In this work, we find that pretraining shadow removal networks on the image inpainting dataset can reduce the shadow remnants significantly: a naive encoder-decoder network gets competitive restoration quality w.r.t. the state-of-the-art methods via only 10% shadow & shadow-free image pairs. After analyzing networks with/without inpainting pre-training via the information stored in the weight (IIW), we find that inpainting pretraining improves restoration quality in non-shadow regions and enhances the generalization ability of networks significantly. Additionally, shadow removal fine-tuning enables networks to fill in the details of shadow regions. Inspired by these observations we formulate shadow removal as an adaptive fusion task that takes advantage of both shadow removal and image inpainting. Specifically, we develop an adaptive fusion network consisting of two encoders, an adaptive fusion block, and a decoder. The two encoders are responsible for extracting the feature from the shadow image and the shadow-masked image respectively. The adaptive fusion block is responsible for combining these features in an adaptive manner. Finally, the decoder converts the adaptive fused features to the desired shadow-free result. The extensive experiments show that our method empowered with inpainting outperforms all state-of-the-art methods.

arxiv情報

著者 Xiaoguang Li,Qing Guo,Rabab Abdelfattah,Di Lin,Wei Feng,Ivor Tsang,Song Wang
発行日 2023-10-01 17:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク