要約
同時ローカリゼーションとマッピング (SLAM) は、静的環境で優れたパフォーマンスを達成しました。
ただし、動的環境における SLAM には未解決の問題が残されています。
多くの方法では動的オブジェクトを直接フィルタリングして除去するため、シーンの再構築が不完全になり、カメラの位置特定の精度が制限されます。
他の作品は、点群、まばらな関節、または粗いメッシュによって動的オブジェクトを表現しており、フォトリアルな表現を提供できません。
上記の制限を克服するために、ガウス スプラッティングを拡張することにより、フォトリアリスティックでジオメトリを意識した RGB-D SLAM 方法を提案します。
私たちの方法は、1) 非剛体人間や剛体アイテムを含む動的前景をマッピングする、2) 静的背景を再構築する、3) カメラの位置を特定する 3 つの主要モジュールで構成されています。
前景をマッピングするには、変形や動きのモデリングに重点を置きます。
私たちは人間の形状事前分布を考慮し、人間とアイテムの幾何学的および外観の制約を利用します。
背景マッピングの場合、外観制約を幾何学的配置に統合することにより、隣接するローカル マップ間の最適化戦略を設計します。
カメラの位置特定に関しては、静的な背景と動的な前景の両方を活用して、ノイズ補正のための観測値を増やします。
3D ガウスを 2D オプティカル フローおよびピクセル パッチに関連付けることにより、幾何学的および外観の制約を調査します。
さまざまな現実世界のデータセットでの実験により、私たちの方法がカメラの位置特定とシーン表現の点で最先端のアプローチよりも優れていることが実証されました。
ソースコードは書類が受理された時点で公開されます。
要約(オリジナル)
Simultaneous localization and mapping (SLAM) has achieved impressive performance in static environments. However, SLAM in dynamic environments remains an open question. Many methods directly filter out dynamic objects, resulting in incomplete scene reconstruction and limited accuracy of camera localization. The other works express dynamic objects by point clouds, sparse joints, or coarse meshes, which fails to provide a photo-realistic representation. To overcome the above limitations, we propose a photo-realistic and geometry-aware RGB-D SLAM method by extending Gaussian splatting. Our method is composed of three main modules to 1) map the dynamic foreground including non-rigid humans and rigid items, 2) reconstruct the static background, and 3) localize the camera. To map the foreground, we focus on modeling the deformations and/or motions. We consider the shape priors of humans and exploit geometric and appearance constraints of humans and items. For background mapping, we design an optimization strategy between neighboring local maps by integrating appearance constraint into geometric alignment. As to camera localization, we leverage both static background and dynamic foreground to increase the observations for noise compensation. We explore the geometric and appearance constraints by associating 3D Gaussians with 2D optical flows and pixel patches. Experiments on various real-world datasets demonstrate that our method outperforms state-of-the-art approaches in terms of camera localization and scene representation. Source codes will be publicly available upon paper acceptance.
arxiv情報
著者 | Haoang Li,Xiangqi Meng,Xingxing Zuo,Zhe Liu,Hesheng Wang,Daniel Cremers |
発行日 | 2024-11-24 12:00:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google