Transformers for Image-Goal Navigation

要約

視覚的知覚とナビゲーションは、身体化された人工知能の分野における主要な焦点分野として浮上しています。
画像目標ナビゲーションのタスクについて考えます。このタスクでは、エージェントは、オンボード カメラからの画像のみに依存して、画像によって指定された目標に移動するタスクを課されます。
このタスクは、確実なシーンの理解、目標指向の計画、および長期的なナビゲーションを必要とするため、特に困難です。
既存のアプローチのほとんどは通常、オンライン強化学習を通じて訓練されたリカレント ニューラル ネットワークに依存してナビゲーション ポリシーを学習します。
ただし、このようなポリシーのトレーニングにはかなりの計算リソースと時間が必要であり、これらのモデルのパフォーマンスは長距離ナビゲーションでは信頼できません。
この研究では、画像の目標、カメラの観察、およびロボットの過去の行動を共同でモデル化し、将来の行動を予測する生成 Transformer ベースのモデルを紹介します。
私たちは、最先端の認識モデルとナビゲーション ポリシーを使用して、環境とのリアルタイムの対話を必要とせずに、堅牢な目標条件付きポリシーを学習します。
私たちのモデルは、長期にわたる視覚情報を取得して関連付けることができ、効果的なナビゲーションに役立ちます。

要約(オリジナル)

Visual perception and navigation have emerged as major focus areas in the field of embodied artificial intelligence. We consider the task of image-goal navigation, where an agent is tasked to navigate to a goal specified by an image, relying only on images from an onboard camera. This task is particularly challenging since it demands robust scene understanding, goal-oriented planning and long-horizon navigation. Most existing approaches typically learn navigation policies reliant on recurrent neural networks trained via online reinforcement learning. However, training such policies requires substantial computational resources and time, and performance of these models is not reliable on long-horizon navigation. In this work, we present a generative Transformer based model that jointly models image goals, camera observations and the robot’s past actions to predict future actions. We use state-of-the-art perception models and navigation policies to learn robust goal conditioned policies without the need for real-time interaction with the environment. Our model demonstrates capability in capturing and associating visual information across long time horizons, helping in effective navigation.

arxiv情報

著者 Nikhilanj Pelluri
発行日 2024-05-23 03:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, I.2.10 パーマリンク