Improving Generalization in Reinforcement Learning Training Regimes for Social Robot Navigation

要約

自律移動ロボットが人間の空間を移動するには、社会規範を遵守する必要があります。
強化学習 (RL) は、これらの規範を尊重できる逐次的な意思決定ポリシーを訓練するための効果的な方法として登場しました。
ただし、現場での既存の作業の大部分は、RL トレーニングとテストの両方を単純な環境で実施しています。
これにより、これらのモデルの一般化の可能性が目に見えない環境に限定され、報告される結果の意味が制限されます。
カリキュラム学習を使用してRLソーシャルナビゲーション手法の汎化パフォーマンスを向上させる方法を提案します。
複数の環境タイプを採用し、複数のダイナミクス モデルを使用して歩行者をモデル化することにより、トレーニングの難易度を徐々に多様化し、段階的に高めることができます。
私たちの結果は、トレーニングでのカリキュラム学習の使用により、以前のトレーニング方法よりも優れた汎化パフォーマンスを達成できることを示しています。
また、多くの既存の最先端の RL ソーシャル ナビゲーション作品で提示された結果は、トレーニング環境の外でその手法を評価していないため、配布外のシナリオに適切に一般化できないポリシーの失敗を反映していないことも示します。

これに応じて、トレーニングで使用される環境よりも大規模で混雑したテスト環境でトレーニング アプローチを検証し、モデルのパフォーマンスをより意味のある測定できるようにします。

要約(オリジナル)

In order for autonomous mobile robots to navigate in human spaces, they must abide by our social norms. Reinforcement learning (RL) has emerged as an effective method to train sequential decision-making policies that are able to respect these norms. However, a large portion of existing work in the field conducts both RL training and testing in simplistic environments. This limits the generalization potential of these models to unseen environments, and the meaningfulness of their reported results. We propose a method to improve the generalization performance of RL social navigation methods using curriculum learning. By employing multiple environment types and by modeling pedestrians using multiple dynamics models, we are able to progressively diversify and escalate difficulty in training. Our results show that the use of curriculum learning in training can be used to achieve better generalization performance than previous training methods. We also show that results presented in many existing state-of-the-art RL social navigation works do not evaluate their methods outside of their training environments, and thus do not reflect their policies’ failure to adequately generalize to out-of-distribution scenarios. In response, we validate our training approach on larger and more crowded testing environments than those used in training, allowing for more meaningful measurements of model performance.

arxiv情報

著者 Adam Sigal,Hsiu-Chin Lin,AJung Moon
発行日 2024-02-28 21:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO パーマリンク