要約
この作品では、普遍的なイメージの再視照明のためにDreamlightという名前のモデルを紹介します。この作品は、照明と色調の観点から美的均一性を維持しながら、被写体を新しい背景にシームレスに複合することができます。
背景は、自然画像(画像ベースの再視力)で指定するか、無制限のテキストプロンプト(テキストベースの再視力)から生成することができます。
既存の研究は、主に画像ベースの再視力に焦点を当てていますが、テキストベースのシナリオへの探索がわずかです。
一部の作品では、環境マップに依存して関連する情報を提供する複雑な解きだめパイプライン設計を採用しています。これは、固有の分解と光源に必要な高価なデータコストに取り組んでいます。
他の方法は、このタスクを画像翻訳の問題として受け取り、自動エンコーダーアーキテクチャを使用してピクセルレベルの変換を実行します。
これらの方法はまともな調和の影響を達成しましたが、前景と背景の間に現実的で自然光の相互作用効果を生み出すのに苦労しています。
これらの課題を緩和するために、入力データを統一された形式に再編成し、自然な結果の生成を容易にするために、前処理された拡散モデルによって提供されるセマンティック事前を活用します。
さらに、背景の異なる方向から光情報を設計されたライトクエリの埋め込みに凝縮し、方向バイアスのマスクされた注意で前景を調整する位置誘導ライトアダプター(PGLA)を提案します。
さらに、Spectral Foreground Fixer(SFF)という名前の後処理モジュールを提示して、主題と再生された背景のさまざまな周波数成分を適応的に再編成し、前景の一貫性を高めるのに役立ちます。
広範な比較とユーザー調査は、私たちのドリームライトが驚くほどの再生パフォーマンスを達成することを示しています。
要約(オリジナル)
We introduce a model named DreamLight for universal image relighting in this work, which can seamlessly composite subjects into a new background while maintaining aesthetic uniformity in terms of lighting and color tone. The background can be specified by natural images (image-based relighting) or generated from unlimited text prompts (text-based relighting). Existing studies primarily focus on image-based relighting, while with scant exploration into text-based scenarios. Some works employ intricate disentanglement pipeline designs relying on environment maps to provide relevant information, which grapples with the expensive data cost required for intrinsic decomposition and light source. Other methods take this task as an image translation problem and perform pixel-level transformation with autoencoder architecture. While these methods have achieved decent harmonization effects, they struggle to generate realistic and natural light interaction effects between the foreground and background. To alleviate these challenges, we reorganize the input data into a unified format and leverage the semantic prior provided by the pretrained diffusion model to facilitate the generation of natural results. Moreover, we propose a Position-Guided Light Adapter (PGLA) that condenses light information from different directions in the background into designed light query embeddings, and modulates the foreground with direction-biased masked attention. In addition, we present a post-processing module named Spectral Foreground Fixer (SFF) to adaptively reorganize different frequency components of subject and relighted background, which helps enhance the consistency of foreground appearance. Extensive comparisons and user study demonstrate that our DreamLight achieves remarkable relighting performance.
arxiv情報
著者 | Yong Liu,Wenpeng Xiao,Qianqian Wang,Junlin Chen,Shiyin Wang,Yitong Wang,Xinglong Wu,Yansong Tang |
発行日 | 2025-06-17 14:05:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google