Text-To-4D Dynamic Scene Generation

要約

テキスト記述から 3 次元の動的シーンを生成する方法である MAV3D (Make-A-Video3D) を紹介します。
私たちのアプローチでは、Text-to-Video (T2V) 拡散ベースのモデルをクエリすることで、シーンの外観、密度、およびモーションの一貫性を最適化する 4D 動的 Neural Radiance Field (NeRF) を使用します。
提供されたテキストから生成された動的ビデオ出力は、任意のカメラ位置と角度から表示でき、任意の 3D 環境に合成できます。
MAV3D は 3D または 4D データを必要とせず、T2V モデルはテキストと画像のペアとラベルのないビデオでのみトレーニングされます。
包括的な定量的および定性的な実験を使用してアプローチの有効性を実証し、以前に確立された内部ベースラインよりも改善されていることを示します。
私たちの知る限り、私たちの方法は、テキストの説明が与えられた 3D 動的シーンを生成する最初の方法です。

要約(オリジナル)

We present MAV3D (Make-A-Video3D), a method for generating three-dimensional dynamic scenes from text descriptions. Our approach uses a 4D dynamic Neural Radiance Field (NeRF), which is optimized for scene appearance, density, and motion consistency by querying a Text-to-Video (T2V) diffusion-based model. The dynamic video output generated from the provided text can be viewed from any camera location and angle, and can be composited into any 3D environment. MAV3D does not require any 3D or 4D data and the T2V model is trained only on Text-Image pairs and unlabeled videos. We demonstrate the effectiveness of our approach using comprehensive quantitative and qualitative experiments and show an improvement over previously established internal baselines. To the best of our knowledge, our method is the first to generate 3D dynamic scenes given a text description.

arxiv情報

著者 Uriel Singer,Shelly Sheynin,Adam Polyak,Oron Ashual,Iurii Makarov,Filippos Kokkinos,Naman Goyal,Andrea Vedaldi,Devi Parikh,Justin Johnson,Yaniv Taigman
発行日 2023-01-26 18:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク