Feudal Networks for Visual Navigation

要約

視覚的なナビゲーションは、人間が詳細な地図がなくてもナビゲートできるという直感に従います。
一般的なアプローチは、計画に使用できるノードの画像を使用してトポロジカル グラフを構築しながら、対話型の探索を行うことです。
最近のバリエーションはパッシブビデオから学習し、複雑な社会的および意味論的な手がかりを使用してナビゲートできます。
ただし、かなりの数のトレーニング ビデオが必要で、大きなグラフが使用され、オドメトリが使用されるため、シーンが見られないわけではありません。
封建的学習を使用した視覚的ナビゲーションへの新しいアプローチを紹介します。封建的学習では、ワーカー エージェント、中間レベルのマネージャー、および上位レベルのマネージャーで構成される階層構造が採用されています。
封建的学習パラダイムの鍵となるのは、各レベルのエージェントがタスクの異なる側面を認識し、異なる空間的および時間的スケールで動作することです。
このフレームワークでは 2 つの独自のモジュールが開発されています。
高レベルのマネージャーの場合、学習した潜在空間に以前の観察を記録し、グラフやオドメトリの使用を回避するために、自己監視型の方法でメモリ プロキシ マップを学習します。
中間レベルのマネージャー向けに、ローカル ナビゲーション中の人間のウェイポイント選択を模倣した中間サブ目標を出力するウェイポイント ネットワークを開発します。
このウェイポイント ネットワークは、テスト環境とは異なるトレーニング環境で、当社が公開している新しい小規模な遠隔操作ビデオのセットを使用して事前トレーニングされています。
結果として得られる封建的ナビゲーション ネットワークは、SOTA に近いパフォーマンスを達成しながら、イメージ ゴール ナビゲーション タスクに対して、RL なし、グラフなし、オドメトリなし、メトリックなしの新しいマップ アプローチを提供します。

要約(オリジナル)

Visual navigation follows the intuition that humans can navigate without detailed maps. A common approach is interactive exploration while building a topological graph with images at nodes that can be used for planning. Recent variations learn from passive videos and can navigate using complex social and semantic cues. However, a significant number of training videos are needed, large graphs are utilized, and scenes are not unseen since odometry is utilized. We introduce a new approach to visual navigation using feudal learning, which employs a hierarchical structure consisting of a worker agent, a mid-level manager, and a high-level manager. Key to the feudal learning paradigm, agents at each level see a different aspect of the task and operate at different spatial and temporal scales. Two unique modules are developed in this framework. For the high-level manager, we learn a memory proxy map in a self supervised manner to record prior observations in a learned latent space and avoid the use of graphs and odometry. For the mid-level manager, we develop a waypoint network that outputs intermediate subgoals imitating human waypoint selection during local navigation. This waypoint network is pre-trained using a new, small set of teleoperation videos that we make publicly available, with training environments different from testing environments. The resulting feudal navigation network achieves near SOTA performance, while providing a novel no-RL, no-graph, no-odometry, no-metric map approach to the image goal navigation task.

arxiv情報

著者 Faith Johnson,Bryan Bo Cao,Ashwin Ashok,Shubham Jain,Kristin Dana
発行日 2024-12-12 21:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク