要約
画像で指定された目標に到達する方法を学習することは、自律システムにとって重要ではありますが、困難なタスクです。
エージェントは、写真が撮影された場所からゴールの場所を推論する必要があります。
既存の手法は、ナビゲーション ポリシーを学習することでこの問題を解決しようとしています。ナビゲーション ポリシーは、ゴール画像と観測画像の意味的特徴を個別に取得し、最後にそれらを融合して一連のナビゲーション アクションを予測します。
ただし、これらの方法には 2 つの大きな制限があります。
1) ゴール画像内の詳細な情報を見逃して、ゴールの場所を推測できない可能性があります。
2) さらに重要なのは、目標条件付けなしで観測を理解しようとするため、観測画像内の目標関連領域に焦点を当てるのが難しいことです。
この論文では、画像ゴール ナビゲーション用のファイングレイン ゴール プロンプティング (FGPrompt) メソッドを設計することで、これらの制限を克服することを目的としています。
特に、条件付き埋め込みを実行するためのプロンプトとして、ゴール画像内のきめの細かい高解像度の特徴マップを活用します。これにより、ゴール画像内の詳細情報が保存され、観測エンコーダーがゴール関連領域に注意を払うようにガイドされます。
画像ゴールナビゲーションベンチマークの既存の方法と比較して、私たちの方法は3つのベンチマークデータセット(つまり、Gibson、MP3D、およびHM3D)で大幅なパフォーマンスの向上をもたらします。
特にギブソンでは、わずか 1/50 のモデルサイズで最先端の成功率を 8% も上回っています。
プロジェクトページ: https://xiyusun.github.io/fgprompt-pages
要約(オリジナル)
Learning to navigate to an image-specified goal is an important but challenging task for autonomous systems. The agent is required to reason the goal location from where a picture is shot. Existing methods try to solve this problem by learning a navigation policy, which captures semantic features of the goal image and observation image independently and lastly fuses them for predicting a sequence of navigation actions. However, these methods suffer from two major limitations. 1) They may miss detailed information in the goal image, and thus fail to reason the goal location. 2) More critically, it is hard to focus on the goal-relevant regions in the observation image, because they attempt to understand observation without goal conditioning. In this paper, we aim to overcome these limitations by designing a Fine-grained Goal Prompting (FGPrompt) method for image-goal navigation. In particular, we leverage fine-grained and high-resolution feature maps in the goal image as prompts to perform conditioned embedding, which preserves detailed information in the goal image and guides the observation encoder to pay attention to goal-relevant regions. Compared with existing methods on the image-goal navigation benchmark, our method brings significant performance improvement on 3 benchmark datasets (i.e., Gibson, MP3D, and HM3D). Especially on Gibson, we surpass the state-of-the-art success rate by 8% with only 1/50 model size. Project page: https://xinyusun.github.io/fgprompt-pages
arxiv情報
著者 | Xinyu Sun,Peihao Chen,Jugang Fan,Thomas H. Li,Jian Chen,Mingkui Tan |
発行日 | 2023-10-11 13:19:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google