VLPG-Nav: Object Navigation Using Visual Language Pose Graph and Object Localization Probability Maps

要約

家庭内のシーン内の指定されたオブジェクトにロボットを誘導するための視覚言語ナビゲーション手法である VLPG-Nav を紹介します。
ロボットをオブジェクトに向かってナビゲートすることに主に焦点を当てた既存の方法とは異なり、私たちのアプローチでは、ロボットのカメラビュー内でオブジェクトを中心に置くという追加の課題を考慮しています。
私たちの方法では、VL 埋め込みの空間マップとして機能するビジュアル ランゲージ ポーズ グラフ (VLPG) を構築します。
オープンボキャブラリーオブジェクトクエリが与えられた場合、VLPG を使用してオブジェクトナビゲーションの視点を計画します。
視点に移動したにもかかわらず、オブジェクトの遮蔽、変位、ロボットの位置特定エラーなどの現実世界の課題により、視界が妨げられることがあります。
ロボットの現在の観察と以前の VLPG を活用したオブジェクト位置特定確率マップを構築します。
オブジェクトが表示されない場合、確率マップが更新され、代替視点が計算されます。
さらに、ロボットのポーズを局所的に調整してオブジェクトをカメラビューの中心に置くオブジェクト中心化定式化を提案します。
私たちは、シミュレーションと実際の実験を通じてアプローチの有効性を評価し、カメラの視野内でオブジェクトを適切に表示して中心に置く能力を評価します。
VLPG-Nav は、オブジェクトの位置を特定し、オクルージョンの周囲を移動し、ロボットのカメラ ビュー内でオブジェクトを中心に置く際のパフォーマンスが向上し、評価メトリクスで選択されたベースラインを上回っています。

要約(オリジナル)

We present VLPG-Nav, a visual language navigation method for guiding robots to specified objects within household scenes. Unlike existing methods primarily focused on navigating the robot toward objects, our approach considers the additional challenge of centering the object within the robot’s camera view. Our method builds a visual language pose graph (VLPG) that functions as a spatial map of VL embeddings. Given an open vocabulary object query, we plan a viewpoint for object navigation using the VLPG. Despite navigating to the viewpoint, real-world challenges like object occlusion, displacement, and the robot’s localization error can prevent visibility. We build an object localization probability map that leverages the robot’s current observations and prior VLPG. When the object isn’t visible, the probability map is updated and an alternate viewpoint is computed. In addition, we propose an object-centering formulation that locally adjusts the robot’s pose to center the object in the camera view. We evaluate the effectiveness of our approach through simulations and real-world experiments, evaluating its ability to successfully view and center the object within the camera field of view. VLPG-Nav demonstrates improved performance in locating the object, navigating around occlusions, and centering the object within the robot’s camera view, outperforming the selected baselines in the evaluation metrics.

arxiv情報

著者 Senthil Hariharan Arul,Dhruva Kumar,Vivek Sugirtharaj,Richard Kim,Xuewei,Qi,Rajasimman Madhivanan,Arnie Sen,Dinesh Manocha
発行日 2024-08-15 17:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク