Exploring the Reliability of Foundation Model-Based Frontier Selection in Zero-Shot Object Goal Navigation

要約

この論文では、ゼロショット オブジェクト ゴール ナビゲーション (ZS-OGN) における信頼性の高いフロンティア選択のための新しい方法を紹介し、基礎モデルを使用してロボット ナビゲーション システムを強化し、屋内環境での常識的な推論を改善します。
私たちのアプローチは、基礎モデルベースのシステムでよく見られる無意味または無関係な推論に対処するために、複数の専門家による意思決定フレームワークを導入します。
この方法は、多様な専門家フロンティア分析 (DEFA) とコンセンサス意思決定 (CDM) という 2 つの主要なコンポーネントで構成されます。
DEFA は、家具の配置、部屋タイプの分析、視覚的なシーンの推論という 3 つの専門家モデルを利用し、CDM はその結果を集約し、より信頼性の高い決定を行うために全会一致または多数決の合意を優先します。
RoboTHOR および HM3D データセットで最先端のパフォーマンスを実証するこの手法は、トレーニングされていないオブジェクトや目標に向かってナビゲートすることに優れ、さまざまなベースラインを上回り、動的な現実世界の条件への適応性と優れた一般化機能を示しています。

要約(オリジナル)

In this paper, we present a novel method for reliable frontier selection in Zero-Shot Object Goal Navigation (ZS-OGN), enhancing robotic navigation systems with foundation models to improve commonsense reasoning in indoor environments. Our approach introduces a multi-expert decision framework to address the nonsensical or irrelevant reasoning often seen in foundation model-based systems. The method comprises two key components: Diversified Expert Frontier Analysis (DEFA) and Consensus Decision Making (CDM). DEFA utilizes three expert models: furniture arrangement, room type analysis, and visual scene reasoning, while CDM aggregates their outputs, prioritizing unanimous or majority consensus for more reliable decisions. Demonstrating state-of-the-art performance on the RoboTHOR and HM3D datasets, our method excels at navigating towards untrained objects or goals and outperforms various baselines, showcasing its adaptability to dynamic real-world conditions and superior generalization capabilities.

arxiv情報

著者 Shuaihang Yuan,Halil Utku Unlu,Hao Huang,Congcong Wen,Anthony Tzes,Yi Fang
発行日 2024-10-28 13:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク