要約
複雑な動作パターンを示す人々の周りをロボットはどのようにして安全に移動できるのでしょうか?
シミュレーションにおける強化学習 (RL) またはディープ RL (DRL) にはある程度の有望性がありますが、これまでの研究の多くはシミュレーターに依存しており、実際の人間の動きのニュアンスを正確に捉えることができませんでした。
このギャップに対処するために、私たちは、ロボットが現実世界の群衆ナビゲーション データから DRL を迅速かつ安全に実行できるようにする方法である、深層残差モデル予測制御 (DR-MPC) を提案します。
MPC とモデルフリー DRL を融合することで、DR-MPC は、大規模なデータ要件と安全でない初期動作という従来の DRL の課題を克服します。
DR-MPC は MPC ベースのパス追跡で初期化され、徐々に人間とより効果的に対話することを学習します。
学習をさらに加速するために、安全コンポーネントは、ロボットが分布外の状態に遭遇する時期を予測し、衝突の可能性を回避します。
シミュレーションでは、DR-MPC が従来の DRL モデルや残留 DRL モデルを含む以前の研究よりも大幅に優れていることを示しています。
実際の実験では、私たちのアプローチが、4 時間未満のトレーニング データを使用して、ロボットがさまざまな混雑した状況をほとんどエラーなくナビゲートできることを示しています。
要約(オリジナル)
How can a robot safely navigate around people exhibiting complex motion patterns? Reinforcement Learning (RL) or Deep RL (DRL) in simulation holds some promise, although much prior work relies on simulators that fail to precisely capture the nuances of real human motion. To address this gap, we propose Deep Residual Model Predictive Control (DR-MPC), a method to enable robots to quickly and safely perform DRL from real-world crowd navigation data. By blending MPC with model-free DRL, DR-MPC overcomes the traditional DRL challenges of large data requirements and unsafe initial behavior. DR-MPC is initialized with MPC-based path tracking, and gradually learns to interact more effectively with humans. To further accelerate learning, a safety component estimates when the robot encounters out-of-distribution states and guides it away from likely collisions. In simulation, we show that DR-MPC substantially outperforms prior work, including traditional DRL and residual DRL models. Real-world experiments show our approach successfully enables a robot to navigate a variety of crowded situations with few errors using less than 4 hours of training data.
arxiv情報
著者 | James R. Han,Hugues Thomas,Jian Zhang,Nicholas Rhinehart,Timothy D. Barfoot |
発行日 | 2024-10-14 15:56:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google