Benchmarking Reinforcement Learning Techniques for Autonomous Navigation

要約

深層強化学習 (RL) は、ロボットの自律ナビゲーションに多くの成功をもたらしてきました。
ただし、RL ベースのナビゲーション システムの実世界での使用を妨げる重要な制限が依然として存在します。
たとえば、ほとんどの学習アプローチには安全性の保証がありません。
そして、学習されたナビゲーション システムは、目に見えない環境にはうまく一般化できない可能性があります。
これらの課題全般に対処するための最近のさまざまな学習技術にもかかわらず、自律ナビゲーションに特化したオープンソースのベンチマークと再現可能な学習方法が不足しているため、ロボット工学者がモバイル ロボットに使用する学習方法や学習研究者がどの学習方法を使用するかを選択することが困難になっています。
自律ナビゲーションの一般的な学習方法の現在の欠点を特定する。
この論文では、自律航行にディープ RL アプローチを適用する際の 4 つの主な要望を特定します: (D1) 不確実性の下での推論、(D2) 安全性、(D3) 限られた試行錯誤データからの学習、(D4) 多様なデータへの一般化
そして斬新な環境。
次に、メモリベースのニューラル ネットワーク アーキテクチャ (D1)、安全な RL (D2)、モデルベースの RL (D2、D3)、および
ドメインのランダム化 (D4)。
これらの学習手法を新しいオープンソースの大規模ナビゲーション ベンチマークと現実世界の環境に展開することで、これらの手法が RL ベースのナビゲーション システムに対するこれらの要望をどの程度達成できるかを確立することを目的とした包括的な研究を実行します。

要約(オリジナル)

Deep reinforcement learning (RL) has brought many successes for autonomous robot navigation. However, there still exists important limitations that prevent real-world use of RL-based navigation systems. For example, most learning approaches lack safety guarantees; and learned navigation systems may not generalize well to unseen environments. Despite a variety of recent learning techniques to tackle these challenges in general, a lack of an open-source benchmark and reproducible learning methods specifically for autonomous navigation makes it difficult for roboticists to choose what learning methods to use for their mobile robots and for learning researchers to identify current shortcomings of general learning methods for autonomous navigation. In this paper, we identify four major desiderata of applying deep RL approaches for autonomous navigation: (D1) reasoning under uncertainty, (D2) safety, (D3) learning from limited trial-and-error data, and (D4) generalization to diverse and novel environments. Then, we explore four major classes of learning techniques with the purpose of achieving one or more of the four desiderata: memory-based neural network architectures (D1), safe RL (D2), model-based RL (D2, D3), and domain randomization (D4). By deploying these learning techniques in a new open-source large-scale navigation benchmark and real-world environments, we perform a comprehensive study aimed at establishing to what extent can these techniques achieve these desiderata for RL-based navigation systems.

arxiv情報

著者 Zifan Xu,Bo Liu,Xuesu Xiao,Anirudh Nair,Peter Stone
発行日 2023-06-27 16:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク