Generalization in Deep Reinforcement Learning for Robotic Navigation by Reward Shaping

要約

この論文では、LiDAR などの限られた範囲の外受容センサーのみが装備された未知の雑然とした作業空間でロボットが目標位置に向かって移動する、ローカル ナビゲーション問題のコンテキストにおける DRL アルゴリズムの適用を研究します。
DRL に基づく衝突回避ポリシーにはいくつかの利点がありますが、適切なアクションを学習する能力がセンサーの範囲に制限されると、極小値の影響を非常に受けやすくなります。
ほとんどのロボットは非構造化環境でタスクを実行するため、特にトレーニングされていないシナリオにおいて、極小値を回避できる一般化されたローカル ナビゲーション ポリシーを模索することは非常に興味深いものです。
そのために、トレーニング段階で得られたマップ情報を組み込んだ新しい報酬関数を提案し、エージェントが最適な行動方針を検討する能力を高めます。
また、当社では ANN のトレーニングに SAC アルゴリズムを使用しています。これは、最先端の文献で他のアルゴリズムよりも効果的であることが示されています。
一連の sim-to-sim および sim-to-real 実験は、SAC と組み合わせた提案の報酬が、極小値と衝突回避の点で比較した方法よりも優れていることを示しています。

要約(オリジナル)

In this paper, we study the application of DRL algorithms in the context of local navigation problems, in which a robot moves towards a goal location in unknown and cluttered workspaces equipped only with limited-range exteroceptive sensors, such as LiDAR. Collision avoidance policies based on DRL present some advantages, but they are quite susceptible to local minima, once their capacity to learn suitable actions is limited to the sensor range. Since most robots perform tasks in unstructured environments, it is of great interest to seek generalized local navigation policies capable of avoiding local minima, especially in untrained scenarios. To do so, we propose a novel reward function that incorporates map information gained in the training stage, increasing the agent’s capacity to deliberate about the best course of action. Also, we use the SAC algorithm for training our ANN, which shows to be more effective than others in the state-of-the-art literature. A set of sim-to-sim and sim-to-real experiments illustrate that our proposed reward combined with the SAC outperforms the compared methods in terms of local minima and collision avoidance.

arxiv情報

著者 Victor R. F. Miranda,Armando A. Neto,Gustavo M. Freitas,Leonardo A. Mozelli
発行日 2023-08-26 14:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク