Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise

要約

生成モデルの最近の進歩により、仮想世界、メディア、およびゲームのアプリケーションの可能性を秘めたテキストプロンプトに基づいて、動的4Dコンテンツ-3Dオブジェクトの動き – 動きの3Dオブジェクトの作成が可能になりました。
既存の方法では、3Dオブジェクトをアニメーション化する機能など、生成されたコンテンツの外観を制御できます。
ただし、ダイナミクスを生成する能力は、トレーニングされたメッシュデータセットに限定されており、成長や構造開発能力がありません。
この作業では、テキストプロンプトを条件付けして4D生成を導くことにより、3Dオブジェクトをアニメーション化するためのトレーニングなしの方法を導入し、元のオブジェクトのアイデンティティを維持しながらカスタムの一般的なシーンを可能にします。
最初に、オブジェクトの視覚属性を保存する静的4Dニューラル放射輝度(NERF)に3Dメッシュを変換します。
次に、テキストによって駆動される画像間拡散モデルを使用してオブジェクトをアニメーション化します。
モーションリアリズムを改善するために、オブジェクトの視点をナイシングプロセスに整合させるビュー-sonsistent Noisingプロトコルを導入して、ライフリカルな動きを促進するマスクスコア蒸留サンプリング(SDS)損失を導入します。
一時的なコヒーレンス、プロンプトアドヒアランス、視覚的忠実度のための2つの異なる3Dオブジェクトデータセットでモデルを評価し、マルチビュートレーニングに基づいてメソッドがベースラインを上回り、ハードシナリオでのテキストプロンプトとのより良い一貫性を達成することがわかります。

要約(オリジナル)

Recent advancements in generative models have enabled the creation of dynamic 4D content – 3D objects in motion – based on text prompts, which holds potential for applications in virtual worlds, media, and gaming. Existing methods provide control over the appearance of generated content, including the ability to animate 3D objects. However, their ability to generate dynamics is limited to the mesh datasets they were trained on, lacking any growth or structural development capability. In this work, we introduce a training-free method for animating 3D objects by conditioning on textual prompts to guide 4D generation, enabling custom general scenes while maintaining the original object’s identity. We first convert a 3D mesh into a static 4D Neural Radiance Field (NeRF) that preserves the object’s visual attributes. Then, we animate the object using an Image-to-Video diffusion model driven by text. To improve motion realism, we introduce a view-consistent noising protocol that aligns object perspectives with the noising process to promote lifelike movement, and a masked Score Distillation Sampling (SDS) loss that leverages attention maps to focus optimization on relevant regions, better preserving the original object. We evaluate our model on two different 3D object datasets for temporal coherence, prompt adherence, and visual fidelity, and find that our method outperforms the baseline based on multiview training, achieving better consistency with the textual prompt in hard scenarios.

arxiv情報

著者 Ohad Rahamim,Ori Malca,Dvir Samuel,Gal Chechik
発行日 2025-05-27 17:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク