Learning Physical-Spatio-Temporal Features for Video Shadow Removal

要約

単一の画像での影の除去は、近年ますます注目を集めています。
ただし、動的なシーンの影を削除することは、ほとんど調査されていません。
このホワイト ペーパーでは、ビデオ シャドウの 3 つの重要な特性、つまり物理的特性、空間関係、および時間的コヒーレンスを活用することにより、PSTNet と呼ばれる最初のデータ駆動型ビデオ シャドウ除去モデルを提案します。
具体的には、複雑な照明とテクスチャを含むシーンにより適したローカル イルミネーション推定を実行するための専用の物理ブランチが確立され、マスク ガイド付きアテンション戦略によって物理的特徴が強化されました。
次に、特徴マップの空間的および時間的特性を強化し、3 種類の特徴を効果的に統合するための漸進的集約モジュールを開発します。
さらに、ペアの影ビデオのデータセットの不足に対処するために、影レンダラーのスイッチを制御することにより、人気ゲーム GTAV を使用してデータセット (SVSRD-85) を合成します。
画像シャドウ リムーバーや画像/ビデオ復元方法を含む 9 つの最先端モデルに対する実験では、この方法がシャドウ領域の RMSE エラーに関して最適な SOTA を 14.7 改善することが示されています。
さらに、軽量モデル適応戦略を開発して、合成駆動型モデルを現実世界のシーンで効果的にします。
公開されている SBU-TimeLapse データセットの視覚的な比較により、実際のシーンでのモデルの一般化能力が検証されます。

要約(オリジナル)

Shadow removal in a single image has received increasing attention in recent years. However, removing shadows over dynamic scenes remains largely under-explored. In this paper, we propose the first data-driven video shadow removal model, termed PSTNet, by exploiting three essential characteristics of video shadows, i.e., physical property, spatio relation, and temporal coherence. Specifically, a dedicated physical branch was established to conduct local illumination estimation, which is more applicable for scenes with complex lighting and textures, and then enhance the physical features via a mask-guided attention strategy. Then, we develop a progressive aggregation module to enhance the spatio and temporal characteristics of features maps, and effectively integrate the three kinds of features. Furthermore, to tackle the lack of datasets of paired shadow videos, we synthesize a dataset (SVSRD-85) with aid of the popular game GTAV by controlling the switch of the shadow renderer. Experiments against 9 state-of-the-art models, including image shadow removers and image/video restoration methods, show that our method improves the best SOTA in terms of RMSE error for the shadow area by 14.7. In addition, we develop a lightweight model adaptation strategy to make our synthetic-driven model effective in real world scenes. The visual comparison on the public SBU-TimeLapse dataset verifies the generalization ability of our model in real scenes.

arxiv情報

著者 Zhihao Chen,Liang Wan,Yefan Xiao,Lei Zhu,Huazhu Fu
発行日 2023-03-16 14:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク