Object-Centric Voxelization of Dynamic Scenes via Inverse Neural Rendering

要約

タイトル:逆ニューラルレンダリングによる動的シーンのオブジェクト中心のボクセル化

要約:
– 3Dシナリオの構成力学を理解することは難しい。
– 既存の方法は時間信号を効果的に利用できないか、シーン分解の多視点一貫性を無視する。
– DynaVolは、複数のオブジェクトを持つ動的シーンの時間変化する体積表現を学習するためのパイロットスタディを提供する逆ニューラルレンダリングフレームワークを提案する。
– DynaVolは、時間的に依存する3Dグリッドを維持し、空間的位置を異なるエンティティに動的かつ柔軟にバインドすることで、表現レベルで情報の分離を促進する。
– DynaVolでは、グリッドレベルのローカルダイナミクス、オブジェクトレベルのグローバルダイナミクス、および組成ニューラル放射場をエンドツーエンドアーキテクチャで共同学習し、オブジェクト中心のシーンボクセル化の空間的一貫性を向上させる。
– DynaVolのための2段階のトレーニングスキームを示し、多数のオブジェクト、多様なダイナミクス、および実世界の形状とテクスチャでのさまざまなベンチマークでその有効性を検証する。
– DynaVolの可視化は、https://sites.google.com/view/dynavol-visualで提供されています。

要約(オリジナル)

Understanding the compositional dynamics of the world in unsupervised 3D scenarios is challenging. Existing approaches either fail to make effective use of time cues or ignore the multi-view consistency of scene decomposition. In this paper, we propose DynaVol, an inverse neural rendering framework that provides a pilot study for learning time-varying volumetric representations for dynamic scenes with multiple entities (like objects). It has two main contributions. First, it maintains a time-dependent 3D grid, which dynamically and flexibly binds the spatial locations to different entities, thus encouraging the separation of information at a representational level. Second, our approach jointly learns grid-level local dynamics, object-level global dynamics, and the compositional neural radiance fields in an end-to-end architecture, thereby enhancing the spatiotemporal consistency of object-centric scene voxelization. We present a two-stage training scheme for DynaVol and validate its effectiveness on various benchmarks with multiple objects, diverse dynamics, and real-world shapes and textures. We present visualization at https://sites.google.com/view/dynavol-visual.

arxiv情報

著者 Siyu Gao,Yanpeng Zhao,Yunbo Wang,Xiaokang Yang
発行日 2023-04-30 05:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク