DifFRelight: Diffusion-Based Facial Performance Relighting

要約

拡散ベースの画像間の変換を使用した、自由視点の顔のパフォーマンスの再照明のための新しいフレームワークを紹介します。
フラットライトや一度に 1 回のライト (OLAT) シナリオなど、さまざまな照明条件下でキャプチャされた多様な表情を含む被写体固有のデータセットを活用して、正確な照明制御のための拡散モデルをトレーニングし、忠実度の高いリライトを可能にします。
フラットライト入力からの顔画像。
私たちのフレームワークには、事前にトレーニングされた安定拡散モデルからの事前知識を活用した、グローバル制御のための統合された照明情報とともに、フラット照明キャプチャとランダム ノイズの空間的に調整された調整が含まれています。
次に、このモデルは、一貫したフラット ライト環境でキャプチャされた動的な顔のパフォーマンスに適用され、スケーラブルな動的な 3D ガウス スプラッティング手法を使用して新しいビュー合成用に再構築され、リライト結果の品質と一貫性が維持されます。
さらに、新しいエリア照明表現と指向性照明を統合することにより、統合された照明制御を導入し、光のサイズと方向を共同調整できるようにします。
また、複数の指向性ライトを使用してハイ ダイナミック レンジ イメージング (HDRI) 合成を可能にし、複雑な照明条件下でダイナミックなシーケンスを生成します。
私たちの評価では、肌の質感や髪などの詳細な特徴を維持しながら、正確な照明制御を実現し、さまざまな表情を一般化するモデルの効率性が実証されています。
このモデルは、目の反射、表面下散乱、セルフシャドウイング、半透明などの複雑な照明効果を正確に再現し、フレームワーク内でフォトリアリズムを進化させます。

要約(オリジナル)

We present a novel framework for free-viewpoint facial performance relighting using diffusion-based image-to-image translation. Leveraging a subject-specific dataset containing diverse facial expressions captured under various lighting conditions, including flat-lit and one-light-at-a-time (OLAT) scenarios, we train a diffusion model for precise lighting control, enabling high-fidelity relit facial images from flat-lit inputs. Our framework includes spatially-aligned conditioning of flat-lit captures and random noise, along with integrated lighting information for global control, utilizing prior knowledge from the pre-trained Stable Diffusion model. This model is then applied to dynamic facial performances captured in a consistent flat-lit environment and reconstructed for novel-view synthesis using a scalable dynamic 3D Gaussian Splatting method to maintain quality and consistency in the relit results. In addition, we introduce unified lighting control by integrating a novel area lighting representation with directional lighting, allowing for joint adjustments in light size and direction. We also enable high dynamic range imaging (HDRI) composition using multiple directional lights to produce dynamic sequences under complex lighting conditions. Our evaluations demonstrate the models efficiency in achieving precise lighting control and generalizing across various facial expressions while preserving detailed features such as skintexture andhair. The model accurately reproduces complex lighting effects like eye reflections, subsurface scattering, self-shadowing, and translucency, advancing photorealism within our framework.

arxiv情報

著者 Mingming He,Pascal Clausen,Ahmet Levent Taşel,Li Ma,Oliver Pilarski,Wenqi Xian,Laszlo Rikker,Xueming Yu,Ryan Burgert,Ning Yu,Paul Debevec
発行日 2024-10-10 17:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク