要約
拡散ベースのモデルは、テキストまたは画像入力から高品質で高解像度のビデオシーケンスを生成することができるが、フレーム間でシーンの照明と視覚的外観を制御する際に、幾何学的手がかりを明示的に統合することができない。この限界に対処するために、我々は、3つの相補的な入力を受け入れるエンドツーエンドの拡散フレームワークであるIllumiCraftを提案する:(1)詳細な照明制御のためのハイダイナミックレンジ(HDR)ビデオマップ、(2)外観の手がかりを提供するためのランダムな照明変化を伴う合成された再照明フレーム(オプションで静的な背景参照画像とペア)、および(3)正確な3Dジオメトリ情報をキャプチャする3D点トラック。照明、アピアランス、ジオメトリのキューを統一された拡散アーキテクチャに統合することで、IllumiCraftはユーザーが定義したプロンプトに沿った時間的に一貫性のあるビデオを生成します。背景条件付きおよびテキスト条件付きのビデオ再照明をサポートし、既存の制御可能なビデオ生成方法よりも優れた忠実度を提供します。プロジェクトページ: https://yuanze-lin.me/IllumiCraft_page
要約(オリジナル)
Although diffusion-based models can generate high-quality and high-resolution video sequences from textual or image inputs, they lack explicit integration of geometric cues when controlling scene lighting and visual appearance across frames. To address this limitation, we propose IllumiCraft, an end-to-end diffusion framework accepting three complementary inputs: (1) high-dynamic-range (HDR) video maps for detailed lighting control; (2) synthetically relit frames with randomized illumination changes (optionally paired with a static background reference image) to provide appearance cues; and (3) 3D point tracks that capture precise 3D geometry information. By integrating the lighting, appearance, and geometry cues within a unified diffusion architecture, IllumiCraft generates temporally coherent videos aligned with user-defined prompts. It supports background-conditioned and text-conditioned video relighting and provides better fidelity than existing controllable video generation methods. Project Page: https://yuanze-lin.me/IllumiCraft_page
arxiv情報
著者 | Yuanze Lin,Yi-Wen Chen,Yi-Hsuan Tsai,Ronald Clark,Ming-Hsuan Yang |
発行日 | 2025-06-03 17:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |