TEDRA: Text-based Editing of Dynamic and Photoreal Actors

要約

過去数年にわたり、実際の人間のビデオのみからフォトリアリスティックで運転可能な 3D アバターを作成することにおいて、大きな進歩が見られました。
ただし、残された中心的な課題は、テキストの説明を使用して衣服のスタイルをきめ細かくユーザーフレンドリーに編集することです。
この目的を達成するために、我々は、アバターのテキストベースの編集を可能にする最初の方法である TEDRA を紹介します。これは、アバターの高い忠実度、時空の一貫性、およびダイナミクスを維持し、骨格のポーズとビューの制御を可能にします。
まずモデルをトレーニングして、実際の俳優の制御可能で忠実度の高いデジタル レプリカを作成します。
次に、さまざまなカメラ角度から撮影された現実の人物のさまざまなフレーム上で微調整することで、事前トレーニングされた生成拡散モデルをパーソナライズし、デジタル表現が現実の人物のダイナミクスと動きを忠実に捉えていることを保証します。
この 2 段階のプロセスは、人間のアバターを動的に編集するアプローチの基礎を築きます。
このパーソナライズされた拡散モデルを利用し、モデルベースのガイダンス フレームワーク内でパーソナライズされたノーマル アライメント スコア蒸留サンプリング (PNA-SDS) を使用して、提供されたテキスト プロンプトに基づいて動的アバターを変更します。
さらに、高品質な編集を保証するためのタイム ステップ アニーリング戦略を提案します。
私たちの結果は、機能とビジュアル品質において以前の研究に比べて明らかな改善を示しています。

要約(オリジナル)

Over the past years, significant progress has been made in creating photorealistic and drivable 3D avatars solely from videos of real humans. However, a core remaining challenge is the fine-grained and user-friendly editing of clothing styles by means of textual descriptions. To this end, we present TEDRA, the first method allowing text-based edits of an avatar, which maintains the avatar’s high fidelity, space-time coherency, as well as dynamics, and enables skeletal pose and view control. We begin by training a model to create a controllable and high-fidelity digital replica of the real actor. Next, we personalize a pretrained generative diffusion model by fine-tuning it on various frames of the real character captured from different camera angles, ensuring the digital representation faithfully captures the dynamics and movements of the real person. This two-stage process lays the foundation for our approach to dynamic human avatar editing. Utilizing this personalized diffusion model, we modify the dynamic avatar based on a provided text prompt using our Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) within a model-based guidance framework. Additionally, we propose a time step annealing strategy to ensure high-quality edits. Our results demonstrate a clear improvement over prior work in functionality and visual quality.

arxiv情報

著者 Basavaraj Sunagad,Heming Zhu,Mohit Mendiratta,Adam Kortylewski,Christian Theobalt,Marc Habermann
発行日 2024-08-28 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク