要約
我々は、Embodied AI におけるオブジェクト ナビゲーション タスクの固有のモジュール性を系統的に調査するために、シンプルだが効果的なモジュラー アプローチ MOPA (Modular ObjectNav with PointGoal エージェント) を提案します。
MOPA は 4 つのモジュールで構成されます: (a) RGB 画像からオブジェクトを識別するように訓練されたオブジェクト検出モジュール、(b) 観察されたオブジェクトのセマンティック マップを構築するマップ構築モジュール、(c) エージェントがオブジェクトを探索できるようにする探索モジュール
(d) 識別されたターゲットオブジェクトに移動するためのナビゲーションモジュール。
最初からナビゲーションを学習するのではなく、事前トレーニングされた PointGoal エージェントをナビゲーション モデルとして効果的に再利用できるため、時間と計算が節約できることを示します。
また、MOPA のさまざまな探査戦略を比較したところ、単純な均一戦略がより高度な探査方法よりも大幅に優れていることがわかりました。
要約(オリジナル)
We propose a simple but effective modular approach MOPA (Modular ObjectNav with PointGoal agents) to systematically investigate the inherent modularity of the object navigation task in Embodied AI. MOPA consists of four modules: (a) an object detection module trained to identify objects from RGB images, (b) a map building module to build a semantic map of the observed objects, (c) an exploration module enabling the agent to explore the environment, and (d) a navigation module to move to identified target objects. We show that we can effectively reuse a pretrained PointGoal agent as the navigation model instead of learning to navigate from scratch, thus saving time and compute. We also compare various exploration strategies for MOPA and find that a simple uniform strategy significantly outperforms more advanced exploration methods.
arxiv情報
著者 | Sonia Raychaudhuri,Tommaso Campari,Unnat Jain,Manolis Savva,Angel X. Chang |
発行日 | 2023-09-15 03:23:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google