Safe Reinforcement Learning of Robot Trajectories in the Presence of Moving Obstacles

要約

この論文では、移動障害物の存在下で衝突のないロボットの軌道を学習するためのアプローチを紹介します。
最初のステップとして、モデルフリーの強化学習を使用して、ロボットの任意の初期状態から回避動作を生成するバックアップ ポリシーをトレーニングします。
他のタスクのポリシーを学習する場合、バックアップ ポリシーを使用して、衝突の潜在的なリスクを推定し、推定されたリスクが高すぎると考えられる場合に代替アクションを提供できます。
どのアクションが選択されても、アクション スペースによりロボットの関節の運動学的制限が違反されないことが保証されます。
私たちは、衝突の危険性を推定するための 2 つの異なる方法を分析し、評価します。
バックグラウンドで実行される物理シミュレーションは計算コストが高くなりますが、決定論的な環境で最良の結果が得られます。
代わりにデータベースのリスク推定を使用すると、計算量は大幅に削減されますが、追加の誤差の原因が発生します。
評価では、衝突のリスクを低く抑えながら、リーチング課題とバスケットボール課題を学習することに成功しました。
この結果は、人間とロボットのシナリオやボール環境など、永続的に安全であるとは考えられない状態など、決定論的および確率論的な環境に対する私たちのアプローチの有効性を示しています。
実際のロボットを使った実験を行うことで、私たちのアプローチがリアルタイムで安全な軌道を生成できることを示します。

要約(オリジナル)

In this paper, we present an approach for learning collision-free robot trajectories in the presence of moving obstacles. As a first step, we train a backup policy to generate evasive movements from arbitrary initial robot states using model-free reinforcement learning. When learning policies for other tasks, the backup policy can be used to estimate the potential risk of a collision and to offer an alternative action if the estimated risk is considered too high. No matter which action is selected, our action space ensures that the kinematic limits of the robot joints are not violated. We analyze and evaluate two different methods for estimating the risk of a collision. A physics simulation performed in the background is computationally expensive but provides the best results in deterministic environments. If a data-based risk estimator is used instead, the computational effort is significantly reduced, but an additional source of error is introduced. For evaluation, we successfully learn a reaching task and a basketball task while keeping the risk of collisions low. The results demonstrate the effectiveness of our approach for deterministic and stochastic environments, including a human-robot scenario and a ball environment, where no state can be considered permanently safe. By conducting experiments with a real robot, we show that our approach can generate safe trajectories in real time.

arxiv情報

著者 Jonas Kiemel,Ludovic Righetti,Torsten Kröger,Tamim Asfour
発行日 2024-11-08 18:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク