Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering

要約

教師なしビデオからオブジェクト中心の表現を学習するのは困難です。
2D 画像の分解に焦点を当てたこれまでのほとんどのアプローチとは異なり、微分可能なボリューム レンダリング フレームワーク内でオブジェクト中心の学習を可能にする、動的シーン向けの DynaVol-S という名前の 3D 生成モデルを紹介します。
重要なアイデアは、オブジェクト中心のボクセル化を実行してシーンの 3D 性質をキャプチャし、個々の空間位置でのオブジェクトごとの占有確率を推測することです。
これらのボクセルの特徴は、正準空間変形関数を通じて進化し、合成 NeRF を使用した逆レンダリング パイプラインで最適化されます。
さらに、私たちのアプローチは 2D セマンティック機能を統合して 3D セマンティック グリッドを作成し、複数のもつれの解けたボクセル グリッドを通じてシーンを表現します。
DynaVol-S は、新しいビュー合成と動的シーンの教師なし分解タスクの両方で既存のモデルを大幅に上回ります。
幾何学的構造と意味論的特徴を共同で考慮することで、複雑なオブジェクトの相互作用を伴う困難な現実世界のシナリオに効果的に対処します。
さらに、トレーニングが完了すると、明示的に意味のあるボクセル特徴により、幾何学的形状の編集やオブジェクトの運動軌跡の操作による新しいシーンの生成など、2D シーン分解手法では実現できない追加機能が可能になります。

要約(オリジナル)

Learning object-centric representations from unsupervised videos is challenging. Unlike most previous approaches that focus on decomposing 2D images, we present a 3D generative model named DynaVol-S for dynamic scenes that enables object-centric learning within a differentiable volume rendering framework. The key idea is to perform object-centric voxelization to capture the 3D nature of the scene, which infers per-object occupancy probabilities at individual spatial locations. These voxel features evolve through a canonical-space deformation function and are optimized in an inverse rendering pipeline with a compositional NeRF. Additionally, our approach integrates 2D semantic features to create 3D semantic grids, representing the scene through multiple disentangled voxel grids. DynaVol-S significantly outperforms existing models in both novel view synthesis and unsupervised decomposition tasks for dynamic scenes. By jointly considering geometric structures and semantic features, it effectively addresses challenging real-world scenarios involving complex object interactions. Furthermore, once trained, the explicitly meaningful voxel features enable additional capabilities that 2D scene decomposition methods cannot achieve, such as novel scene generation through editing geometric shapes or manipulating the motion trajectories of objects.

arxiv情報

著者 Yanpeng Zhao,Yiwei Hao,Siyu Gao,Yunbo Wang,Xiaokang Yang
発行日 2024-07-30 15:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク