SCONE: Surface Coverage Optimization in Unknown Environments by Volumetric Integration

要約

Next Best View 計算 (NBV) は、ロボット工学における長年の問題であり、3D オブジェクトまたはシーンを効率的かつ正確に再構築するために、次に有益なセンサー位置を特定することにあります。
現在のほとんどの方法と同様に、Lidar システムなどの深度センサーからの NBV 予測を検討します。
シーンの体積表現に依存する学習ベースの方法は、経路計画に適していますが、表面ベースの表現を使用する方法よりも精度が低くなります。
ただし、後者はシーンのサイズにうまく対応できず、カメラを少数のポーズに制限します。
両方の表現の利点を得るために、体積表現に対するモンテカルロ積分によって表面メトリックを最大化できることを示します。
特に、2 つのニューラル モジュールに依存するアプローチ SCONE を提案します。最初のモジュールは、シーンのボリューム全体の占有確率を予測します。
新しいカメラ ポーズが与えられると、2 番目のモジュールは占有確率に基づいてシーン内のポイントをサンプリングし、セルフアテンション メカニズムを利用してサンプルの可視性を予測します。
最後に、可視性を統合して、新しいカメラ ポーズのサーフェス カバレッジのゲインを評価します。
NBV は、サーフェス カバレッジ全体のゲインを最大化するポーズとして選択されます。
私たちの方法は、大きなシーンにスケーリングし、自由なカメラの動きを処理します。深さセンサーによって収集された任意の大きな点群とカメラのポーズを入力として取り、NBV を予測します。
大規模で複雑な 3D シーンで構成される新しいデータセットに対するアプローチを示します。

要約(オリジナル)

Next Best View computation (NBV) is a long-standing problem in robotics, and consists in identifying the next most informative sensor position(s) for reconstructing a 3D object or scene efficiently and accurately. Like most current methods, we consider NBV prediction from a depth sensor like Lidar systems. Learning-based methods relying on a volumetric representation of the scene are suitable for path planning, but have lower accuracy than methods using a surface-based representation. However, the latter do not scale well with the size of the scene and constrain the camera to a small number of poses. To obtain the advantages of both representations, we show that we can maximize surface metrics by Monte Carlo integration over a volumetric representation. In particular, we propose an approach, SCONE, that relies on two neural modules: The first module predicts occupancy probability in the entire volume of the scene. Given any new camera pose, the second module samples points in the scene based on their occupancy probability and leverages a self-attention mechanism to predict the visibility of the samples. Finally, we integrate the visibility to evaluate the gain in surface coverage for the new camera pose. NBV is selected as the pose that maximizes the gain in total surface coverage. Our method scales to large scenes and handles free camera motion: It takes as input an arbitrarily large point cloud gathered by a depth sensor as well as camera poses to predict NBV. We demonstrate our approach on a novel dataset made of large and complex 3D scenes.

arxiv情報

著者 Antoine Guédon,Pascal Monasse,Vincent Lepetit
発行日 2022-11-01 16:38:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク