Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting

要約

3D ガウス スプラッティング (3DGS) を使用したロボット マニピュレータのアクティブな次善のビューとタッチ選択のためのフレームワークを提案します。
3DGS は、フォトリアリスティックかつ幾何学的に正確な方法でシーンを表現できるため、ロボット工学にとって有用な明示的な 3D シーン表現として浮上しています。
ただし、効率要件を考慮してビュー数が制限されている現実世界のオンライン ロボット シーンでは、ビューが重複して冗長であることが多いため、3DGS のランダムなビュー選択は非現実的になります。
私たちは、エンドツーエンドのオンライン トレーニングとアクティブ ビュー選択パイプラインを提案することで、この問題に対処します。これにより、少数ビューのロボット設定で 3DGS のパフォーマンスが向上します。
まず、セグメント エニシング モデル 2 (SAM2) を使用した新しいセマンティック深度アライメント手法を使用して、少数ショット 3DGS のパフォーマンスを向上させます。SAM2 には、ピアソン深度と表面法線損失を追加して、現実世界のシーンの色と深度の再構成を改善します。
次に、3DGS の次に最適なビュー選択方法である FisherRF を拡張し、深度の不確実性に基づいてビューとタッチ ポーズを選択します。
ライブ 3DGS トレーニング中に、実際のロボット システムでオンライン ビュー選択を実行します。
私たちはショット数の少ない GS シーンの改善を推進し、深度ベースの FisherRF をそれらのシーンに拡張し、困難なロボット シーンの定性的および量的改善の両方を実証します。
詳細については、https://armlabstanford.github.io/next-best-sense のプロジェクト ページをご覧ください。

要約(オリジナル)

We propose a framework for active next best view and touch selection for robotic manipulators using 3D Gaussian Splatting (3DGS). 3DGS is emerging as a useful explicit 3D scene representation for robotics, as it has the ability to represent scenes in a both photorealistic and geometrically accurate manner. However, in real-world, online robotic scenes where the number of views is limited given efficiency requirements, random view selection for 3DGS becomes impractical as views are often overlapping and redundant. We address this issue by proposing an end-to-end online training and active view selection pipeline, which enhances the performance of 3DGS in few-view robotics settings. We first elevate the performance of few-shot 3DGS with a novel semantic depth alignment method using Segment Anything Model 2 (SAM2) that we supplement with Pearson depth and surface normal loss to improve color and depth reconstruction of real-world scenes. We then extend FisherRF, a next-best-view selection method for 3DGS, to select views and touch poses based on depth uncertainty. We perform online view selection on a real robot system during live 3DGS training. We motivate our improvements to few-shot GS scenes, and extend depth-based FisherRF to them, where we demonstrate both qualitative and quantitative improvements on challenging robot scenes. For more information, please see our project page at https://armlabstanford.github.io/next-best-sense.

arxiv情報

著者 Matthew Strong,Boshu Lei,Aiden Swann,Wen Jiang,Kostas Daniilidis,Monroe Kennedy III
発行日 2024-10-07 01:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク