Factored Neural Representation for Scene Understanding

要約

【タイトル】シーン理解のためのファクタードニューラル表現

【要約】
– シーン理解においての長年の目標は、専用のハードウェアセットアップや事前条件なしに、生のモノクロRGB-Dビデオから直接構築できる解釈可能で編集可能な表現を取得することである。
– 複数の移動または変形オブジェクトが存在する場合、この問題はかなり困難である。
– 従来の手法では、簡略化、シーン事前条件、事前に作られたテンプレート、または既知の変形モデルの混合でアプローチしてきた。
– ニューラル表現、特にニューラル暗黙的表現と放射フィールドの発展により、幾何学、外観、およびオブジェクトの動きを集合的に捕捉するためにエンドツーエンドの最適化を可能にする。
– ただし、現在の手法は、グローバルなシーンエンコーディングを生成し、限られたまたは全くないシーン内の多視点キャプチャを仮定し、新しいビュー合成を超えた簡単な操作を容易にしない。
– この研究では、モノクロRGB-Dビデオから直接学習することができるファクタ化されたニューラルシーン表現を紹介している。この表現は、明示的なオブジェクトの動きのエンコーディング(例:剛体軌跡)と/または変形(例:非剛体運動)を持つオブジェクトレベルのニューラルプレゼンテーションを生成する。
– 私たちは、人工的なデータと実際のデータの両方で一連のニューラルアプローチに対して、私たちの方法を評価し、表現が効率的で解釈可能で編集可能であることを示した。
– プロジェクトのWebページは、リンク先から閲覧可能。

要約(オリジナル)

A long-standing goal in scene understanding is to obtain interpretable and editable representations that can be directly constructed from a raw monocular RGB-D video, without requiring specialized hardware setup or priors. The problem is significantly more challenging in the presence of multiple moving and/or deforming objects. Traditional methods have approached the setup with a mix of simplifications, scene priors, pretrained templates, or known deformation models. The advent of neural representations, especially neural implicit representations and radiance fields, opens the possibility of end-to-end optimization to collectively capture geometry, appearance, and object motion. However, current approaches produce global scene encoding, assume multiview capture with limited or no motion in the scenes, and do not facilitate easy manipulation beyond novel view synthesis. In this work, we introduce a factored neural scene representation that can directly be learned from a monocular RGB-D video to produce object-level neural presentations with an explicit encoding of object movement (e.g., rigid trajectory) and/or deformations (e.g., nonrigid movement). We evaluate ours against a set of neural approaches on both synthetic and real data to demonstrate that the representation is efficient, interpretable, and editable (e.g., change object trajectory). The project webpage is available at: $\href{https://yushiangw.github.io/factorednerf/}{\text{link}}$.

arxiv情報

著者 Yu-Shiang Wong,Niloy J. Mitra
発行日 2023-04-21 13:40:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク