Uncertainty-Informed Active Perception for Open Vocabulary Object Goal Navigation

要約

屋内環境を探索するモバイルロボットは、オブジェクトカテゴリなどのカメラ画像の高レベルのセマンティックキューを知覚するために、ビジョン言語モデルにますます依存しています。
このようなモデルは、オブジェクトゴールナビゲーション(ObjectNav)などのタスクのロボット動作を実質的に前進させる可能性を提供します。ここでは、環境を探索することにより、ロボットが自然言語で指定されたオブジェクトを特定する必要があります。
現在のObjectNavメソッドは、知覚のために迅速なエンジニアリングに大きく依存しており、迅速な言い回しによって引き起こされるセマンティックの不確実性に対処しません。
セマンティックの不確実性を無視すると、最適ではない探査につながり、パフォーマンスが制限されます。
したがって、屋内環境でのObjectNavのセマンティックな不確実性に基づいたアクティブな知覚パイプラインを提案します。
視覚言語モデルのセマンティックの不確実性を定量化するための新しい確率的センサーモデルを導入し、空間的理解を強化するために確率的幾何学的セマンチックなマップにそれを組み込みます。
このマップに基づいて、効率的なオブジェクト検索をガイドするために、不確実な情報に基づいたマルチアームのバンディット目標を持つフロンティア探査プランナーを開発します。
実験結果は、私たちの方法が、広範な迅速なエンジニアリングを必要とせずに、最先端のアプローチの方法に匹敵するObjectNavの成功率を達成することを示しています。

要約(オリジナル)

Mobile robots exploring indoor environments increasingly rely on vision-language models to perceive high-level semantic cues in camera images, such as object categories. Such models offer the potential to substantially advance robot behaviour for tasks such as object-goal navigation (ObjectNav), where the robot must locate objects specified in natural language by exploring the environment. Current ObjectNav methods heavily depend on prompt engineering for perception and do not address the semantic uncertainty induced by variations in prompt phrasing. Ignoring semantic uncertainty can lead to suboptimal exploration, which in turn limits performance. Hence, we propose a semantic uncertainty-informed active perception pipeline for ObjectNav in indoor environments. We introduce a novel probabilistic sensor model for quantifying semantic uncertainty in vision-language models and incorporate it into a probabilistic geometric-semantic map to enhance spatial understanding. Based on this map, we develop a frontier exploration planner with an uncertainty-informed multi-armed bandit objective to guide efficient object search. Experimental results demonstrate that our method achieves ObjectNav success rates comparable to those of state-of-the-art approaches, without requiring extensive prompt engineering.

arxiv情報

著者 Utkarsh Bajpai,Julius Rückin,Cyrill Stachniss,Marija Popović
発行日 2025-06-16 11:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク