EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting

要約

人間の活動は本質的に複雑であり、単純な家事であっても多数のオブジェクトの相互作用が関係します。
これらの活動や行動をより深く理解するには、環境との動的な相互作用をモデル化することが重要です。
最近では手頃な価格のヘッドマウント カメラと自己中心的なデータが利用できるようになり、3D 環境における人間とオブジェクトの動的な相互作用を理解するための、よりアクセスしやすく効率的な手段が提供されています。
しかし、人間の活動をモデリングするための既存の手法のほとんどは、手と物体または人間とシーンの相互作用の 3D モデルを再構築するか、3D シーンをマッピングすることに焦点を当てており、物体との動的な相互作用は無視されています。
いくつかの既存のソリューションでは、多くの場合、マルチカメラのセットアップ、深度検知カメラ、運動感覚センサーなど、複数のソースからの入力が必要です。
この目的を達成するために、RGB 自己中心入力のみから 3D シーンの再構築と 3D オブジェクトの動きの動的追跡を同時に実行できる最初の方法である EgoGaussian を導入します。
ガウス スプラッティングの独特の離散的な性質を活用し、動的相互作用を背景からセグメント化します。
私たちのアプローチでは、人間の活動の動的な性質を活用するクリップレベルのオンライン学習パイプラインを採用しており、シーンの時間的展開を時系列で再構築し、剛体の動きを追跡することができます。
さらに、私たちの方法はオブジェクトと背景のガウスを自動的にセグメント化し、静的シーンと動的オブジェクトの両方に 3D 表現を提供します。
EgoGaussian は、困難な野外ビデオにおいて以前の NeRF および Dynamic Gaussian 手法を上回っており、再構築されたモデルの高品質も定性的に実証しています。

要約(オリジナル)

Human activities are inherently complex, and even simple household tasks involve numerous object interactions. To better understand these activities and behaviors, it is crucial to model their dynamic interactions with the environment. The recent availability of affordable head-mounted cameras and egocentric data offers a more accessible and efficient means to understand dynamic human-object interactions in 3D environments. However, most existing methods for human activity modeling either focus on reconstructing 3D models of hand-object or human-scene interactions or on mapping 3D scenes, neglecting dynamic interactions with objects. The few existing solutions often require inputs from multiple sources, including multi-camera setups, depth-sensing cameras, or kinesthetic sensors. To this end, we introduce EgoGaussian, the first method capable of simultaneously reconstructing 3D scenes and dynamically tracking 3D object motion from RGB egocentric input alone. We leverage the uniquely discrete nature of Gaussian Splatting and segment dynamic interactions from the background. Our approach employs a clip-level online learning pipeline that leverages the dynamic nature of human activities, allowing us to reconstruct the temporal evolution of the scene in chronological order and track rigid object motion. Additionally, our method automatically segments object and background Gaussians, providing 3D representations for both static scenes and dynamic objects. EgoGaussian outperforms previous NeRF and Dynamic Gaussian methods in challenging in-the-wild videos and we also qualitatively demonstrate the high quality of the reconstructed models.

arxiv情報

著者 Daiwei Zhang,Gengyan Li,Jiajie Li,Mickaël Bressieux,Otmar Hilliges,Marc Pollefeys,Luc Van Gool,Xi Wang
発行日 2024-06-28 10:39:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク