DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

要約

既存のVLMは、野生の2D映像オブジェクトを追跡することができる一方、現在の生成モデルは、2Dから3Dへのオブジェクトのリフティングの制約が非常に少ないため、新しいビューを合成するための強力な視覚的事前分布を提供する。このエキサイティングな進歩に基づき、我々はDreamScene4Dを発表する。DreamScene4Dは、オクルージョンや新しい視点をまたいだ大きなオブジェクトの動きを持つ単眼の野生映像から、複数のオブジェクトの3次元動的シーンを生成できる初めてのアプローチである。我々の重要な洞察は、ビデオシーン全体と各オブジェクトの3Dモーションの両方を因数分解する「分解-再合成」スキームを設計することである。まず、オープンボキャブラリーマスクトラッカーと適応した画像拡散モデルを用いてビデオシーンを分解し、ビデオ内のオブジェクトと背景をセグメント化、追跡、アモーダル補完する。各オブジェクトトラックは、空間と時間で変形し移動する3Dガウシアンの集合にマッピングされる。また、速い動きを扱うために、観測された動きを複数の成分に因数分解する。カメラの動きは、ビデオフレームに合わせて背景を再レンダリングすることで推測できる。オブジェクトの動きについては、まずオブジェクト中心のフレームにおけるレンダリング損失とマルチビューの生成的事前分布を活用することで、オブジェクト中心の変形をモデル化し、次にレンダリング出力を知覚されたピクセルとオプティカルフローと比較することで、オブジェクト中心からワールドフレームへの変換を最適化する。最後に、背景とオブジェクトを再構成し、単眼深度予測ガイダンスを用いて相対的なオブジェクトのスケールを最適化する。難易度の高いDAVIS、Kubric、およびセルフキャプチャビデオでの広範な結果を示し、いくつかの限界について詳述し、将来の方向性を示す。4Dシーン生成に加え、DreamScene4Dは、推定された3D軌跡を2Dに投影することで、正確な2D点運動追跡を可能にする。

要約(オリジナル)

Existing VLMs can track in-the-wild 2D video objects while current generative models provide powerful visual priors for synthesizing novel views for the highly under-constrained 2D-to-3D object lifting. Building upon this exciting progress, we present DreamScene4D, the first approach that can generate three-dimensional dynamic scenes of multiple objects from monocular in-the-wild videos with large object motion across occlusions and novel viewpoints. Our key insight is to design a ‘decompose-then-recompose’ scheme to factorize both the whole video scene and each object’s 3D motion. We first decompose the video scene by using open-vocabulary mask trackers and an adapted image diffusion model to segment, track, and amodally complete the objects and background in the video. Each object track is mapped to a set of 3D Gaussians that deform and move in space and time. We also factorize the observed motion into multiple components to handle fast motion. The camera motion can be inferred by re-rendering the background to match the video frames. For the object motion, we first model the object-centric deformation of the objects by leveraging rendering losses and multi-view generative priors in an object-centric frame, then optimize object-centric to world-frame transformations by comparing the rendered outputs against the perceived pixel and optical flow. Finally, we recompose the background and objects and optimize for relative object scales using monocular depth prediction guidance. We show extensive results on the challenging DAVIS, Kubric, and self-captured videos, detail some limitations, and provide future directions. Besides 4D scene generation, our results show that DreamScene4D enables accurate 2D point motion tracking by projecting the inferred 3D trajectories to 2D, while never explicitly trained to do so.

arxiv情報

著者 Wen-Hsuan Chu,Lei Ke,Katerina Fragkiadaki
発行日 2024-05-03 17:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク