TEDRA: Text-based Editing of Dynamic and Photoreal Actors


過去数年にわたり、実際の人間のビデオのみからフォトリアリスティックで運転可能な 3D アバターを作成することにおいて、大きな進歩が見られました。
この目的を達成するために、我々は、アバターのテキストベースの編集を可能にする最初の方法である TEDRA を紹介します。これは、アバターの高い忠実度、時空の一貫性、およびダイナミクスを維持し、骨格のポーズとビューの制御を可能にします。
まずモデルをトレーニングして、実際の俳優の制御可能で忠実度の高いデジタル レプリカを作成します。
この 2 段階のプロセスは、人間のアバターを動的に編集するアプローチの基礎を築きます。
このパーソナライズされた拡散モデルを利用し、モデルベースのガイダンス フレームワーク内でパーソナライズされたノーマル アライメント スコア蒸留サンプリング (PNA-SDS) を使用して、提供されたテキスト プロンプトに基づいて動的アバターを変更します。
さらに、高品質な編集を保証するためのタイム ステップ アニーリング戦略を提案します。


Over the past years, significant progress has been made in creating photorealistic and drivable 3D avatars solely from videos of real humans. However, a core remaining challenge is the fine-grained and user-friendly editing of clothing styles by means of textual descriptions. To this end, we present TEDRA, the first method allowing text-based edits of an avatar, which maintains the avatar’s high fidelity, space-time coherency, as well as dynamics, and enables skeletal pose and view control. We begin by training a model to create a controllable and high-fidelity digital replica of the real actor. Next, we personalize a pretrained generative diffusion model by fine-tuning it on various frames of the real character captured from different camera angles, ensuring the digital representation faithfully captures the dynamics and movements of the real person. This two-stage process lays the foundation for our approach to dynamic human avatar editing. Utilizing this personalized diffusion model, we modify the dynamic avatar based on a provided text prompt using our Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) within a model-based guidance framework. Additionally, we propose a time step annealing strategy to ensure high-quality edits. Our results demonstrate a clear improvement over prior work in functionality and visual quality.


著者 Basavaraj Sunagad,Heming Zhu,Mohit Mendiratta,Adam Kortylewski,Christian Theobalt,Marc Habermann
発行日 2024-08-28 17:59:02+00:00
