要約
災害現場などの未知の乱雑で動的な環境では、移動ロボットはターゲットの画像だけを頼りに、対象の人や物体を見つけるためにターゲット駆動型のナビゲーションを実行する必要があります。
この論文では、未知の動的環境におけるロボットのターゲット駆動ナビゲーションのために開発された新しいエンドツーエンドのトランスフォーマー アーキテクチャである NavFormer を紹介します。
NavFormer は、1) 逐次データ処理のためのトランスフォーマーと 2) 視覚的表現のための自己教師あり学習 (SSL) の両方の長所を活用して、空間レイアウトを推論し、動的設定で衝突回避を実行します。
このアーキテクチャは、空間推論のために不変の環境特徴を抽出するための静的エンコーダと、動的障害物回避のための汎用エンコーダで構成されるデュアルビジュアル エンコーダを独自に組み合わせています。
主要なロボット ナビゲーション タスクは、トレーニング用に 2 つのサブタスク (単一ロボットの探索と複数ロボットの衝突回避) に分解されます。
タスク固有の微調整を必要とせずに、学習したスキルを複雑な主要なナビゲーション タスクに移行できるようにするために、タスク間トレーニングを実行します。
シミュレートされた実験では、NavFormer がさまざまな未知の環境で移動ロボットを効果的にナビゲートでき、成功率と (正規化された逆) 経路長によって重み付けされた成功の点で既存の最先端の方法を上回っていることが実証されました。
さらに、NavFormer の構造とトレーニングの主な設計選択の影響を評価するために、包括的なアブレーション研究が実行され、システム全体におけるそれらの有効性がさらに検証されます。
要約(オリジナル)
In unknown cluttered and dynamic environments such as disaster scenes, mobile robots need to perform target-driven navigation in order to find people or objects of interest, while being solely guided by images of the targets. In this paper, we introduce NavFormer, a novel end-to-end transformer architecture developed for robot target-driven navigation in unknown and dynamic environments. NavFormer leverages the strengths of both 1) transformers for sequential data processing and 2) self-supervised learning (SSL) for visual representation to reason about spatial layouts and to perform collision-avoidance in dynamic settings. The architecture uniquely combines dual-visual encoders consisting of a static encoder for extracting invariant environment features for spatial reasoning, and a general encoder for dynamic obstacle avoidance. The primary robot navigation task is decomposed into two sub-tasks for training: single robot exploration and multi-robot collision avoidance. We perform cross-task training to enable the transfer of learned skills to the complex primary navigation task without the need for task-specific fine-tuning. Simulated experiments demonstrate that NavFormer can effectively navigate a mobile robot in diverse unknown environments, outperforming existing state-of-the-art methods in terms of success rate and success weighted by (normalized inverse) path length. Furthermore, a comprehensive ablation study is performed to evaluate the impact of the main design choices of the structure and training of NavFormer, further validating their effectiveness in the overall system.
arxiv情報
| 著者 | Haitong Wang,Aaron Hao Tan,Goldie Nejat |
| 発行日 | 2024-07-08 16:44:57+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google