How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers

要約

オブジェクトのゴール ナビゲーションは、未知の環境 (通常は屋内シーン) でオブジェクト カテゴリのインスタンスに移動するようにエージェントを誘導することを含む、Embedded AI の重要な問題です。
残念なことに、この問題に対する現在の最先端の手法は、エンドツーエンドの強化学習や模倣学習などのデータ駆動型アプローチに大きく依存しています。
さらに、このような手法は通常、トレーニングにコストがかかり、デバッグが困難なため、移転性や説明可能性が欠如します。
古典的な方法と学習方法を組み合わせた最近の成功に触発され、オブジェクトの目標ナビゲーションの問題に取り組むための、より古典的なアプローチを採用したモジュール式でトレーニング不要のソリューションを紹介します。
私たちの方法は、古典的なビジュアル同時ローカリゼーションおよびマッピング (V-SLAM) フレームワークに基づいて構造化されたシーン表現を構築します。
次に、幾何学ベースのフロンティア探索にセマンティクスを注入して、目標オブジェクトを検索する有望な領域を推論します。
構造化されたシーン表現は、2D 占有マップ、セマンティック点群、空間シーン グラフで構成されます。
私たちの方法は、言語事前分布とシーン統計に基づいてシーン グラフ上に意味論を伝播し、幾何学的なフロンティアに意味論的な知識を導入します。
注入されたセマンティック事前確率を使用して、エージェントは探索すべき最も有望なフロンティアについて推論することができます。
提案されたパイプラインは、Gibson ベンチマーク データセットでのオブジェクト ゴール ナビゲーションに関して強力な実験パフォーマンスを示し、以前の最先端のパイプラインを上回っています。
また、オブジェクトナビゲーションタスクにおける現在のボトルネックを特定するために、包括的なアブレーション研究も実行します。

要約(オリジナル)

Object goal navigation is an important problem in Embodied AI that involves guiding the agent to navigate to an instance of the object category in an unknown environment — typically an indoor scene. Unfortunately, current state-of-the-art methods for this problem rely heavily on data-driven approaches, \eg, end-to-end reinforcement learning, imitation learning, and others. Moreover, such methods are typically costly to train and difficult to debug, leading to a lack of transferability and explainability. Inspired by recent successes in combining classical and learning methods, we present a modular and training-free solution, which embraces more classic approaches, to tackle the object goal navigation problem. Our method builds a structured scene representation based on the classic visual simultaneous localization and mapping (V-SLAM) framework. We then inject semantics into geometric-based frontier exploration to reason about promising areas to search for a goal object. Our structured scene representation comprises a 2D occupancy map, semantic point cloud, and spatial scene graph. Our method propagates semantics on the scene graphs based on language priors and scene statistics to introduce semantic knowledge to the geometric frontiers. With injected semantic priors, the agent can reason about the most promising frontier to explore. The proposed pipeline shows strong experimental performance for object goal navigation on the Gibson benchmark dataset, outperforming the previous state-of-the-art. We also perform comprehensive ablation studies to identify the current bottleneck in the object navigation task.

arxiv情報

著者 Junting Chen,Guohao Li,Suryansh Kumar,Bernard Ghanem,Fisher Yu
発行日 2023-05-26 13:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク