要約
拡散モデルは、画像の生成と編集において顕著な成功を示しており、最近の進歩により、アルベドを摂取する画像の学習が可能になりました。
ただし、これらのモデルをビデオの学習に適用することは、ペアのビデオ再生データセットの欠如と、拡散モデルの固有のランダム性によってさらに複雑になっている出力の忠実度と時間的一貫性に対する高い要求のために、依然として困難です。
これらの課題に対処するために、RelightVidを紹介します。これは、バックグラウンドビデオ、テキストプロンプト、または環境マップを再生条件として受け入れることができるビデオの学習のための柔軟なフレームワークです。
慎重に設計された照明の増強と極端な動的照明の下でレンダリングされたビデオで野生のビデオで訓練されたReLightVidは、その画像のバックボーンの照明の照明を保存しながら、固有の分解なしに高い時間的一貫性を備えた任意のビデオを実現します。
要約(オリジナル)
Diffusion models have demonstrated remarkable success in image generation and editing, with recent advancements enabling albedo-preserving image relighting. However, applying these models to video relighting remains challenging due to the lack of paired video relighting datasets and the high demands for output fidelity and temporal consistency, further complicated by the inherent randomness of diffusion models. To address these challenges, we introduce RelightVid, a flexible framework for video relighting that can accept background video, text prompts, or environment maps as relighting conditions. Trained on in-the-wild videos with carefully designed illumination augmentations and rendered videos under extreme dynamic lighting, RelightVid achieves arbitrary video relighting with high temporal consistency without intrinsic decomposition while preserving the illumination priors of its image backbone.
arxiv情報
著者 | Ye Fang,Zeyi Sun,Shangzhan Zhang,Tong Wu,Yinghao Xu,Pan Zhang,Jiaqi Wang,Gordon Wetzstein,Dahua Lin |
発行日 | 2025-01-27 18:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google