Pre-Trained Masked Image Model for Mobile Robot Navigation

要約

2D トップダウン マップは、未知の領域を移動ロボットで移動したり探索したりするためによく使用されます。
通常、ロボットは、搭載センサーを使用したローカル観測に基づいてナビゲーション マップを段階的に構築します。
最近の研究では、学習ベースのアプローチを通じて環境内の構造パターンを予測すると、タスクの効率が大幅に向上することが示されています。
このような研究の多くは限られたデータセットを使用してタスク固有のネットワークを構築しますが、既存の基礎的なビジョン ネットワークが微調整なしで同じことを達成できることを示します。
具体的には、街頭画像で事前トレーニングされたマスクされたオートエンコーダーを使用して、さまざまな入力モダリティにわたる視野拡大、シングルエージェントトポロジ探査、屋内マッピング用のマルチエージェント探査のための新しいアプリケーションを提示します。
私たちの研究は、特にトレーニング データが不足している場合に、一般化された構造予測駆動型アプリケーションに基礎的なビジョン モデルを使用する動機付けとなっています。
より定性的な結果については、https://raaslab.org/projects/MIM4Robots を参照してください。

要約(オリジナル)

2D top-down maps are commonly used for the navigation and exploration of mobile robots through unknown areas. Typically, the robot builds the navigation maps incrementally from local observations using onboard sensors. Recent works have shown that predicting the structural patterns in the environment through learning-based approaches can greatly enhance task efficiency. While many such works build task-specific networks using limited datasets, we show that the existing foundational vision networks can accomplish the same without any fine-tuning. Specifically, we use Masked Autoencoders, pre-trained on street images, to present novel applications for field-of-view expansion, single-agent topological exploration, and multi-agent exploration for indoor mapping, across different input modalities. Our work motivates the use of foundational vision models for generalized structure prediction-driven applications, especially in the dearth of training data. For more qualitative results see https://raaslab.org/projects/MIM4Robots.

arxiv情報

著者 Vishnu Dutt Sharma,Anukriti Singh,Pratap Tokekar
発行日 2023-10-10 21:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク