VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training

要約

人間は、ナビゲーションに関連する特定の視覚領域に焦点を合わせることで、衝突することなく群衆の中を効率的に移動することに優れています。
ただし、ロボットによる視覚ナビゲーション手法のほとんどは、視覚タスクで事前トレーニングされた深層学習モデルに依存しており、顕著なオブジェクトを優先します。必ずしもナビゲーションに関連しているわけではなく、誤解を招く可能性があります。
代替アプローチでは、特殊なナビゲーション モデルを最初からトレーニングするため、大量の計算が必要になります。
一方、自己教師あり学習はコンピュータービジョンと自然言語処理に革命をもたらしましたが、効果的な自己教師あり学習の定義が難しいため、ロボットナビゲーションへの応用はまだ研究されていません。
これらの観察に動機付けられて、この研究では、ビジュアルナビゲーション事前トレーニング(VANP)のための自己教師ありビジョンアクションモデルを提案します。
VANP は、分類や検出などのタスクに有益な顕著なオブジェクトを検出するのではなく、ナビゲーション タスクに関連する特定の視覚領域のみに焦点を当てることを学習します。
これを実現するために、VANP は視覚的観察の履歴、将来のアクション、自己監視のための目標イメージを使用し、2 つの小さなトランスフォーマー エンコーダーを使用してそれらを埋め込みます。
次に、VANP は相互情報量最大化目的関数を使用してエンベディング間の情報を最大化します。
VANP で抽出された特徴のほとんどが人間のナビゲーションの直感と一致することを実証します。
VANP は、半分のトレーニング時間でエンドツーエンドで学習されたモデルと、わずか 0.08% のデータを含む大規模で完全に監視されたデータセット、つまり ImageNet でトレーニングされたモデルと同等のパフォーマンスを達成します。

要約(オリジナル)

Humans excel at efficiently navigating through crowds without collision by focusing on specific visual regions relevant to navigation. However, most robotic visual navigation methods rely on deep learning models pre-trained on vision tasks, which prioritize salient objects — not necessarily relevant to navigation and potentially misleading. Alternative approaches train specialized navigation models from scratch, requiring significant computation. On the other hand, self-supervised learning has revolutionized computer vision and natural language processing, but its application to robotic navigation remains underexplored due to the difficulty of defining effective self-supervision signals. Motivated by these observations, in this work, we propose a Self-Supervised Vision-Action Model for Visual Navigation Pre-Training (VANP). Instead of detecting salient objects that are beneficial for tasks such as classification or detection, VANP learns to focus only on specific visual regions that are relevant to the navigation task. To achieve this, VANP uses a history of visual observations, future actions, and a goal image for self-supervision, and embeds them using two small Transformer Encoders. Then, VANP maximizes the information between the embeddings by using a mutual information maximization objective function. We demonstrate that most VANP-extracted features match with human navigation intuition. VANP achieves comparable performance as models learned end-to-end with half the training time and models trained on a large-scale, fully supervised dataset, i.e., ImageNet, with only 0.08% data.

arxiv情報

著者 Mohammad Nazeri,Junzhe Wang,Amirreza Payandeh,Xuesu Xiao
発行日 2024-07-29 21:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク