Detail-Preserving Latent Diffusion for Stable Shadow Removal

要約

複雑なグローバル イルミネーションのあるシーンでは、強力な汎用性を備えた高品質の影の除去を実現するのは困難です。
影除去データセットの多様性が限られているため、現在の方法ではトレーニング データが過剰適合する傾向があり、多くの場合、目に見えないケースでのパフォーマンスの低下につながります。
これに対処するために、事前トレーニングされた安定拡散 (SD) モデルの豊富な視覚的事前分布を活用し、SD モデルを安定的かつ効率的に影を除去するように適応させる 2 段階の微調整パイプラインを提案します。
最初の段階では、VAE を修正し、潜在空間でデノイザーを微調整します。これにより、実質的な影が除去されますが、高周波の詳細が一部失われる可能性があります。
これを解決するために、詳細注入ステージと呼ばれる 2 番目のステージを導入します。
この段階では、VAE エンコーダーから特徴を選択的に抽出してデコーダーを変調し、最終結果に細かい詳細を注入します。
実験結果は、私たちの方法が最先端の影除去技術よりも優れていることを示しています。
データセット間の評価により、私たちの方法が目に見えないデータに対して効果的に一般化され、影除去方法の適用可能性が向上することがさらに実証されています。

要約(オリジナル)

Achieving high-quality shadow removal with strong generalizability is challenging in scenes with complex global illumination. Due to the limited diversity in shadow removal datasets, current methods are prone to overfitting training data, often leading to reduced performance on unseen cases. To address this, we leverage the rich visual priors of a pre-trained Stable Diffusion (SD) model and propose a two-stage fine-tuning pipeline to adapt the SD model for stable and efficient shadow removal. In the first stage, we fix the VAE and fine-tune the denoiser in latent space, which yields substantial shadow removal but may lose some high-frequency details. To resolve this, we introduce a second stage, called the detail injection stage. This stage selectively extracts features from the VAE encoder to modulate the decoder, injecting fine details into the final results. Experimental results show that our method outperforms state-of-the-art shadow removal techniques. The cross-dataset evaluation further demonstrates that our method generalizes effectively to unseen data, enhancing the applicability of shadow removal methods.

arxiv情報

著者 Jiamin Xu,Yuxin Zheng,Zelong Li,Chi Wang,Renshu Gu,Weiwei Xu,Gang Xu
発行日 2024-12-23 15:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク