Learning Multi-Object Dynamics with Compositional Neural Radiance Fields

要約

暗黙のオブジェクトエンコーダ、ニューラル放射輝度フィールド(NeRF)、およびグラフニューラルネットワークに基づく画像観測から構成マルチオブジェクトダイナミクスモデルを学習する方法を提示します。
NeRFは、その強力な3Dの事前性により、シーンを表現するための人気のある選択肢になっています。
ただし、ほとんどのNeRFアプローチは単一のシーンでトレーニングされ、シーン全体をグローバルモデルで表し、さまざまな数のオブジェクトを含む新しいシーンへの一般化を困難にします。
代わりに、シーンの複数のビューを各オブジェクトを個別に表す潜在ベクトルのセットにマッピングする、構成的なオブジェクト中心のオートエンコーダフレームワークを紹介します。
潜在ベクトルは、シーンを再構築できる個々のNeRFをパラメーター化します。
これらの潜在ベクトルに基づいて、潜在空間でグラフニューラルネットワークダイナミクスモデルをトレーニングし、ダイナミクス予測の構成性を実現します。
私たちのアプローチの重要な特徴は、潜在ベクトルがNeRFデコーダーを介して3D情報をエンコードすることを強制されることです。これにより、ダイナミクスモデルの学習に構造的事前確率を組み込むことができ、複数のベースラインと比較して長期予測がより安定します。
シミュレートされた実世界の実験は、私たちの方法が、剛体および変形可能なオブジェクトを含む構図シーンのダイナミクスをモデル化および学習できることを示しています。
ビデオ:https://dannydriess.github.io/compnerfdyn/

要約(オリジナル)

We present a method to learn compositional multi-object dynamics models from image observations based on implicit object encoders, Neural Radiance Fields (NeRFs), and graph neural networks. NeRFs have become a popular choice for representing scenes due to their strong 3D prior. However, most NeRF approaches are trained on a single scene, representing the whole scene with a global model, making generalization to novel scenes, containing different numbers of objects, challenging. Instead, we present a compositional, object-centric auto-encoder framework that maps multiple views of the scene to a set of latent vectors representing each object separately. The latent vectors parameterize individual NeRFs from which the scene can be reconstructed. Based on those latent vectors, we train a graph neural network dynamics model in the latent space to achieve compositionality for dynamics prediction. A key feature of our approach is that the latent vectors are forced to encode 3D information through the NeRF decoder, which enables us to incorporate structural priors in learning the dynamics models, making long-term predictions more stable compared to several baselines. Simulated and real world experiments show that our method can model and learn the dynamics of compositional scenes including rigid and deformable objects. Video: https://dannydriess.github.io/compnerfdyn/

arxiv情報

著者 Danny Driess,Zhiao Huang,Yunzhu Li,Russ Tedrake,Marc Toussaint
発行日 2022-07-27 14:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク