Embedding Pose Graph, Enabling 3D Foundation Model Capabilities with a Compact Representation

要約

このペーパーでは、基礎モデルの長所とロボット工学アプリケーションに適したシンプルな 3D 表現を組み合わせた革新的な手法である埋め込みポーズ グラフ (EPG) について説明します。
ロボット工学における効率的な空間理解のニーズに対処するために、EPG は基礎モデルの特徴をポーズ グラフのノードに付加することにより、コンパクトでありながら強力なアプローチを提供します。
ボクセル グリッドや点群などのかさばるデータ形式に依存する従来の方法とは異なり、EPG は軽量でスケーラブルです。
これにより、オープン語彙のクエリ、曖昧さの解消、画像ベースのクエリ、言語指向のナビゲーション、3D 環境での再ローカリゼーションなど、さまざまなロボット タスクが容易になります。
これらのタスクの処理における EPG の有効性を紹介し、ロボットが複雑な空間と対話し、複雑な空間を移動する方法を改善する能力を実証します。
定性的評価と定量的評価の両方を通じて、EPG の強力なパフォーマンスと、再位置特定において既存の方法を上回る能力を示します。
私たちの研究は、ロボットが大規模な 3D 空間内で効率的に理解して動作できるようにする上で重要な前進をもたらします。

要約(オリジナル)

This paper presents the Embedding Pose Graph (EPG), an innovative method that combines the strengths of foundation models with a simple 3D representation suitable for robotics applications. Addressing the need for efficient spatial understanding in robotics, EPG provides a compact yet powerful approach by attaching foundation model features to the nodes of a pose graph. Unlike traditional methods that rely on bulky data formats like voxel grids or point clouds, EPG is lightweight and scalable. It facilitates a range of robotic tasks, including open-vocabulary querying, disambiguation, image-based querying, language-directed navigation, and re-localization in 3D environments. We showcase the effectiveness of EPG in handling these tasks, demonstrating its capacity to improve how robots interact with and navigate through complex spaces. Through both qualitative and quantitative assessments, we illustrate EPG’s strong performance and its ability to outperform existing methods in re-localization. Our work introduces a crucial step forward in enabling robots to efficiently understand and operate within large-scale 3D spaces.

arxiv情報

著者 Hugues Thomas,Jian Zhang
発行日 2024-03-20 17:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク