Stranger Danger! Identifying and Avoiding Unpredictable Pedestrians in RL-based Social Robot Navigation

要約

ソーシャル ロボット ナビゲーションのための強化学習 (RL) 手法は、大勢の人の中をロボットをナビゲートすることに大きな成功を収めていますが、これらの学習ベースの手法のパフォーマンスは、モデルが代表的なトレーニング データに依存しているため、特に困難な状況や不慣れな状況では低下する傾向があります。
人間の安全と快適さを確保するには、これらのアルゴリズムがまれなケースを適切に処理することが重要ですが、そのような状況の頻度が低く、多様性が広いため、これらのデータ駆動型の手法には大きな課題が生じます。
この課題を克服するために、私たちは、これらの RL ポリシーが不慣れな状況でもさらなる警戒を維持することを奨励する学習プロセスの修正を提案します。
具体的には、社会的注意強化学習 (SARL) ポリシーを、(1) トレーニング プロセスを変更して歩行者モデルに逸脱を体系的に導入する、(2) 価値ネットワークを更新して歩行者の予測不可能性の特徴を推定および利用する、(3) という方法で改善します。
歩行者の予測不能に対する効果的な反応を学習するための報酬関数を実装します。
元の SARL ポリシーと比較して、当社の修正ポリシーは同様のナビゲーション時間と経路長を維持しながら、衝突件数を 82% 削減し、最も困難な場合に歩行者のパーソナル スペースで過ごす時間の割合を最大 19 パーセント ポイント削減します。
ケース。
また、これらの変更を他の RL ポリシーに適用する方法についても説明し、アプローチのいくつかの主要な高レベルの動作が物理ロボットに転送されることを示します。

要約(オリジナル)

Reinforcement learning (RL) methods for social robot navigation show great success navigating robots through large crowds of people, but the performance of these learning-based methods tends to degrade in particularly challenging or unfamiliar situations due to the models’ dependency on representative training data. To ensure human safety and comfort, it is critical that these algorithms handle uncommon cases appropriately, but the low frequency and wide diversity of such situations present a significant challenge for these data-driven methods. To overcome this challenge, we propose modifications to the learning process that encourage these RL policies to maintain additional caution in unfamiliar situations. Specifically, we improve the Socially Attentive Reinforcement Learning (SARL) policy by (1) modifying the training process to systematically introduce deviations into a pedestrian model, (2) updating the value network to estimate and utilize pedestrian-unpredictability features, and (3) implementing a reward function to learn an effective response to pedestrian unpredictability. Compared to the original SARL policy, our modified policy maintains similar navigation times and path lengths, while reducing the number of collisions by 82% and reducing the proportion of time spent in the pedestrians’ personal space by up to 19 percentage points for the most difficult cases. We also describe how to apply these modifications to other RL policies and demonstrate that some key high-level behaviors of our approach transfer to a physical robot.

arxiv情報

著者 Sara Pohland,Alvin Tan,Prabal Dutta,Claire Tomlin
発行日 2024-07-08 15:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク