要約
自律型ロボットが人間の住む環境で移動する際には、社会に準拠することが不可欠です。
機械学習、特に深層強化学習は、最近ソーシャル ナビゲーションの分野で大きな注目を集めています。
これは、結果として得られるポリシーが、コードの複雑さや処理される変数の数といった人間の制限に束縛されないことに部分的に起因している可能性があります。
残念ながら、安全性が保証されていないことと、DRL アルゴリズムによる大規模なデータ要件により、現実世界での学習は実現できません。
このギャップを埋めるために、シミュレーション環境が頻繁に使用されます。
私たちは、さまざまなソーシャル ナビゲーション シナリオを生成し、インテリジェントなソーシャル エージェントの開発を容易にするソーシャル ナビゲーション用の高度なシミュレーション環境である SocNavGym を提案します。
SocNavGym は軽量、高速、使いやすく、さまざまな種類のソーシャル ナビゲーション シナリオを生成するように簡単に構成できます。
また、さまざまな手作りおよびデータ駆動型のソーシャル報酬シグナルを処理し、エージェントのパフォーマンスをベンチマークするためのさまざまな評価指標を生成するように構成することもできます。
さらに、決闘 DQN エージェントが SocNavGym を使用してソーシャル ナビゲーション ポリシーを学習するようにトレーニングされるケース スタディも提供します。
この結果は、SocNavGym を使用してエージェントをゼロからトレーニングし、単純なソーシャル シナリオだけでなく複雑なソーシャル シナリオでもナビゲートできることを示す証拠を示しています。
私たちの実験では、データ駆動型の報酬関数を使用してトレーニングされたエージェントは、ヒューリスティックベースの報酬関数と比較して、より高度な社会的コンプライアンスを示すことも示しています。
要約(オリジナル)
It is essential for autonomous robots to be socially compliant while navigating in human-populated environments. Machine Learning and, especially, Deep Reinforcement Learning have recently gained considerable traction in the field of Social Navigation. This can be partially attributed to the resulting policies not being bound by human limitations in terms of code complexity or the number of variables that are handled. Unfortunately, the lack of safety guarantees and the large data requirements by DRL algorithms make learning in the real world unfeasible. To bridge this gap, simulation environments are frequently used. We propose SocNavGym, an advanced simulation environment for social navigation that can generate a wide variety of social navigation scenarios and facilitates the development of intelligent social agents. SocNavGym is light-weight, fast, easy-to-use, and can be effortlessly configured to generate different types of social navigation scenarios. It can also be configured to work with different hand-crafted and data-driven social reward signals and to yield a variety of evaluation metrics to benchmark agents’ performance. Further, we also provide a case study where a Dueling-DQN agent is trained to learn social-navigation policies using SocNavGym. The results provides evidence that SocNavGym can be used to train an agent from scratch to navigate in simple as well as complex social scenarios. Our experiments also show that the agents trained using the data-driven reward function displays more advanced social compliance in comparison to the heuristic-based reward function.
arxiv情報
著者 | Aditya Kapoor,Sushant Swamy,Luis Manso,Pilar Bachiller |
発行日 | 2023-07-07 04:00:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google