要約
目に見えない環境でのオブジェクト ゴール ナビゲーション (ObjectNav) は、エンボディド AI の基本的なタスクです。
既存の作品のエージェントは、2D マップ、シーン グラフ、または画像シーケンスに基づいて ObjectNav ポリシーを学習します。
このタスクが 3D 空間で発生することを考慮すると、3D 対応エージェントは、きめの細かい空間情報から学習することで ObjectNav 機能を向上させることができます。
ただし、3D シーン表現を活用することは、サンプル効率が低く、計算コストが高いため、このフロアレベルのタスクでのポリシー学習には非常に実用的ではありません。
この作業では、2 つの単純なサブポリシーに基づいて、挑戦的な 3D 対応 ObjectNav のフレームワークを提案します。
2 つのサブポリシー、つまりコーナー誘導探索ポリシーとカテゴリ認識識別ポリシーは、観察としてオンラインの融合 3D ポイントを利用することによって同時に実行されます。
広範な実験を通じて、このフレームワークが 3D シーン表現から学習することで ObjectNav のパフォーマンスを劇的に改善できることを示しています。
私たちのフレームワークは、Matterport3D および Gibson データセットでのすべてのモジュラーベースのメソッドの中で最高のパフォーマンスを達成しながら、トレーニングに必要な計算コストを (最大 30 倍) 削減します。
要約(オリジナル)
Object goal navigation (ObjectNav) in unseen environments is a fundamental task for Embodied AI. Agents in existing works learn ObjectNav policies based on 2D maps, scene graphs, or image sequences. Considering this task happens in 3D space, a 3D-aware agent can advance its ObjectNav capability via learning from fine-grained spatial information. However, leveraging 3D scene representation can be prohibitively unpractical for policy learning in this floor-level task, due to low sample efficiency and expensive computational cost. In this work, we propose a framework for the challenging 3D-aware ObjectNav based on two straightforward sub-policies. The two sub-polices, namely corner-guided exploration policy and category-aware identification policy, simultaneously perform by utilizing online fused 3D points as observation. Through extensive experiments, we show that this framework can dramatically improve the performance in ObjectNav through learning from 3D scene representation. Our framework achieves the best performance among all modular-based methods on the Matterport3D and Gibson datasets, while requiring (up to 30x) less computational cost for training.
arxiv情報
著者 | Jiazhao Zhang,Liu Dai,Fanpeng Meng,Qingnan Fan,Xuelin Chen,Kai Xu,He Wang |
発行日 | 2023-03-08 16:09:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google