要約
オブジェクトの目標ナビゲーションは、具体化されたAIの基本的なタスクであり、エージェントが未開の環境でターゲットオブジェクトを見つけるように指示されます。
従来の学習ベースの方法は、大規模な注釈付きデータに大きく依存しているか、強化学習環境で環境との広範な相互作用が必要であり、多くの場合、新しい環境に一般化し、スケーラビリティを制限することができません。
これらの課題を克服するために、エージェントがタスク固有のトレーニングなしで動作するゼロショット設定を探り、よりスケーラブルで適応性のあるソリューションを可能にします。
Vision Foundationモデル(VFMS)の最近の進歩は、視覚的な理解と推論のための強力な機能を提供し、エージェントがシーンを理解し、関連する地域を特定し、オブジェクトの可能性のある場所を推測するのに理想的です。
この作業では、VFMの知覚力をフロンティア探査を通じて長老の意思決定が可能なモデルベースのプランナーと統合するゼロショットオブジェクトゴールナビゲーションフレームワークを提示します。
HM3DデータセットでのアプローチをHABTATシミュレーターを使用して評価し、ゼロショットオブジェクトの目標ナビゲーションのパス長で重み付けされた成功の観点から、この方法が最先端のパフォーマンスを達成することを実証します。
要約(オリジナル)
Object goal navigation is a fundamental task in embodied AI, where an agent is instructed to locate a target object in an unexplored environment. Traditional learning-based methods rely heavily on large-scale annotated data or require extensive interaction with the environment in a reinforcement learning setting, often failing to generalize to novel environments and limiting scalability. To overcome these challenges, we explore a zero-shot setting where the agent operates without task-specific training, enabling more scalable and adaptable solution. Recent advances in Vision Foundation Models (VFMs) offer powerful capabilities for visual understanding and reasoning, making them ideal for agents to comprehend scenes, identify relevant regions, and infer the likely locations of objects. In this work, we present a zero-shot object goal navigation framework that integrates the perceptual strength of VFMs with a model-based planner that is capable of long-horizon decision making through frontier exploration. We evaluate our approach on the HM3D dataset using the Habitat simulator and demonstrate that our method achieves state-of-the-art performance in terms of success weighted by path length for zero-shot object goal navigation.
arxiv情報
著者 | Arnab Debnath,Gregory J. Stein,Jana Kosecka |
発行日 | 2025-06-04 03:04:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google