要約
単一の画像またはビデオを再照合するという課題に対処します。これは、正確なシーンの固有の理解と高品質の光輸送合成を要求するタスクです。
既存のエンドツーエンドの学習モデルは、多くの場合、ペアの多照合データの希少性によって制限され、多様なシーン全体に一般化する能力を制限します。
逆に、逆レンダリングとフォワードレンダリングを組み合わせた2段階のパイプラインは、データ要件を軽減できますが、エラーの蓄積の影響を受けやすく、複雑な照明条件下または洗練された材料で現実的な出力を生成できないことがよくあります。
この作業では、Albedoを共同で推定し、単一のパスでRelit Outputsを合成する汎用アプローチを導入し、ビデオ拡散モデルの生成機能を活用します。
この共同製剤は、暗黙のシーンの理解を高め、現実的な照明効果の作成と、影、反射、透明性などの複雑な材料相互作用を促進します。
合成マルチ照明データと自動的にラベル付けされた広範な実世界ビデオでトレーニングされたこのモデルは、多様なドメイン全体で強力な一般化を示し、視覚的忠実度と時間的一貫性の両方で以前の方法を上回ります。
要約(オリジナル)
We address the challenge of relighting a single image or video, a task that demands precise scene intrinsic understanding and high-quality light transport synthesis. Existing end-to-end relighting models are often limited by the scarcity of paired multi-illumination data, restricting their ability to generalize across diverse scenes. Conversely, two-stage pipelines that combine inverse and forward rendering can mitigate data requirements but are susceptible to error accumulation and often fail to produce realistic outputs under complex lighting conditions or with sophisticated materials. In this work, we introduce a general-purpose approach that jointly estimates albedo and synthesizes relit outputs in a single pass, harnessing the generative capabilities of video diffusion models. This joint formulation enhances implicit scene comprehension and facilitates the creation of realistic lighting effects and intricate material interactions, such as shadows, reflections, and transparency. Trained on synthetic multi-illumination data and extensive automatically labeled real-world videos, our model demonstrates strong generalization across diverse domains and surpasses previous methods in both visual fidelity and temporal consistency.
arxiv情報
著者 | Kai He,Ruofan Liang,Jacob Munkberg,Jon Hasselgren,Nandita Vijaykumar,Alexander Keller,Sanja Fidler,Igor Gilitschenski,Zan Gojcic,Zian Wang |
発行日 | 2025-06-18 17:56:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google