Factored Neural Representation for Scene Understanding

要約

シーン理解における長年の目標は、特殊なハードウェアのセットアップや事前準備を必要とせずに、生の単眼 RGB-D ビデオから直接構築できる、解釈可能で編集可能な表現を取得することです。
複数の移動オブジェクトや変形オブジェクトが存在する場合、この問題はさらに困難になります。
従来の方法では、簡略化、事前シーン、事前トレーニングされたテンプレート、または既知の変形モデルを組み合わせてセットアップに取り組んできました。
ニューラル表現、特にニューラルの暗黙的表現と放射フィールドの出現により、ジオメトリ、外観、オブジェクトの動きを集合的に捕捉するためのエンドツーエンドの最適化の可能性が開かれました。
しかし、現在のアプローチは、グローバル シーン エンコードを生成し、シーン内の動きが制限されているかまったくないマルチビュー キャプチャを想定しており、新しいビュー合成を超える簡単な操作を促進しません。
この研究では、単眼の RGB-D ビデオから直接学習できる因数分解されたニューラル シーン表現を導入して、オブジェクトの動き (例: 剛体軌道) および/または変形 (例:
非剛体的な動き)。
私たちは、合成データと実際のデータの両方に対する一連のニューラル アプローチに対して評価を行い、その表現が効率的で、解釈可能で、編集可能 (オブジェクトの軌道の変更など) であることを実証します。
コードとデータは次の場所から入手できます: $\href{http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf/}{\text{http://geometry.cs.ucl.ac.uk/
プロジェクト/2023/factorednerf/}}$.

要約(オリジナル)

A long-standing goal in scene understanding is to obtain interpretable and editable representations that can be directly constructed from a raw monocular RGB-D video, without requiring specialized hardware setup or priors. The problem is significantly more challenging in the presence of multiple moving and/or deforming objects. Traditional methods have approached the setup with a mix of simplifications, scene priors, pretrained templates, or known deformation models. The advent of neural representations, especially neural implicit representations and radiance fields, opens the possibility of end-to-end optimization to collectively capture geometry, appearance, and object motion. However, current approaches produce global scene encoding, assume multiview capture with limited or no motion in the scenes, and do not facilitate easy manipulation beyond novel view synthesis. In this work, we introduce a factored neural scene representation that can directly be learned from a monocular RGB-D video to produce object-level neural presentations with an explicit encoding of object movement (e.g., rigid trajectory) and/or deformations (e.g., nonrigid movement). We evaluate ours against a set of neural approaches on both synthetic and real data to demonstrate that the representation is efficient, interpretable, and editable (e.g., change object trajectory). Code and data are available at: $\href{http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf/}{\text{http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf/}}$.

arxiv情報

著者 Yu-Shiang Wong,Niloy J. Mitra
発行日 2023-06-20 08:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク