Exploration Without Maps via Zero-Shot Out-of-Distribution Deep Reinforcement Learning

要約

動的に変化する GPS が拒否された環境において、事前の地図を使用せず、オンボードセンサーのみを使用して、車輪付き地上車両、四足歩行体、人型ロボットを含むあらゆる形式の自律移動ロボット (AMR) を運用することは、経済を変革する可能性を秘めた未解決の問題です。
農業、製造、災害対応、軍事、宇宙探査の改善により、人類の能力が大幅に向上します。
従来の AMR 自動化アプローチは、知覚、動作計画、および制御にモジュール化されており、計算効率が低く、明示的な特徴抽出とエンジニアリングが必要であり、一般化や大規模な導入が妨げられています。
教師ありディープラーニング (DL) には十分に厳選された大量のトレーニング データが必要であり、収集と収集には時間と労力がかかるため、センサー入力を制御出力に直接マッピングする現実世界のエンドツーエンドのアプローチに焦点を当てた研究はほとんどありません。
ラベル、サンプルの非効率性と、深層強化学習 (DRL) を使用してシミュレーションと現実のギャップを埋めるための課題を明らかにします。
この論文では、シミュレーションの物理的限界にある制約された環境でゼロショットを現実世界に転送し、堅牢なエンドツーエンドの AMR 探査のために DRL を効率的にトレーニングする新しい方法を紹介します。
それぞれ 64 ノードを持つ 2 つの完全に接続された層からなるコンパクトなパラメーター空間で学習された表現は、地図のない非構造化地形や動的な障害物回避を含む新しい環境でのナビゲーションに対する分布外一般化のための創発的な動作を示すことが実証されています。
学習されたポリシーは、計算リソースの一部を消費しながら従来のナビゲーション アルゴリズムよりも優れたパフォーマンスを発揮し、さまざまな組み込みコンピューター ペイロードを備えたさまざまな AMR フォームでの実行を可能にします。

要約(オリジナル)

Operation of Autonomous Mobile Robots (AMRs) of all forms that include wheeled ground vehicles, quadrupeds and humanoids in dynamically changing GPS denied environments without a-priori maps, exclusively using onboard sensors, is an unsolved problem that has potential to transform the economy, and vastly improve humanity’s capabilities with improvements to agriculture, manufacturing, disaster response, military and space exploration. Conventional AMR automation approaches are modularized into perception, motion planning and control which is computationally inefficient, and requires explicit feature extraction and engineering, that inhibits generalization, and deployment at scale. Few works have focused on real-world end-to-end approaches that directly map sensor inputs to control outputs due to the large amount of well curated training data required for supervised Deep Learning (DL) which is time consuming and labor intensive to collect and label, and sample inefficiency and challenges to bridging the simulation to reality gap using Deep Reinforcement Learning (DRL). This paper presents a novel method to efficiently train DRL for robust end-to-end AMR exploration, in a constrained environment at physical limits in simulation, transferred zero-shot to the real-world. The representation learned in a compact parameter space with 2 fully connected layers with 64 nodes each is demonstrated to exhibit emergent behavior for out-of-distribution generalization to navigation in new environments that include unstructured terrain without maps, and dynamic obstacle avoidance. The learned policy outperforms conventional navigation algorithms while consuming a fraction of the computation resources, enabling execution on a range of AMR forms with varying embedded computer payloads.

arxiv情報

著者 Shathushan Sivashangaran,Apoorva Khairnar,Azim Eskandarian
発行日 2024-02-07 18:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク