Improving the Generalization of Unseen Crowd Behaviors for Reinforcement Learning based Local Motion Planners

要約

人間の歩行者がいるシナリオで安全な移動ロボット ポリシーを導入することは、歩行者が予測できない動きをするため、困難です。
現在の強化学習ベースの動作プランナーは単一のポリシーに依存して歩行者の動きをシミュレートしているため、過剰適合の問題が発生する可能性があります。
あるいは、衝突回避の問題をマルチエージェントのフレームワークとして組み立てると、エージェントが目標を達成することを学習しながらダイナミックな動きを生成するため、その均質性により人間の歩行者との衝突が生じる可能性があります。
この問題に取り組むために、情報理論上の目的を最大化することによって、単一のポリシー内でエージェントの多様性を強化する効率的な方法を導入します。
この多様性により各エージェントのエクスペリエンスが豊かになり、目に見えない群衆の行動への適応力が向上します。
目に見えない群衆に対するエージェントの堅牢性を評価する際に、歩行者の群衆の行動に触発されたさまざまなシナリオを提案します。
当社の動作条件付きポリシーは、これらの困難なシーンにおいて既存の作業を上回っており、追加の時間や移動を必要とせずに潜在的な衝突を軽減します。

要約(オリジナル)

Deploying a safe mobile robot policy in scenarios with human pedestrians is challenging due to their unpredictable movements. Current Reinforcement Learning-based motion planners rely on a single policy to simulate pedestrian movements and could suffer from the over-fitting issue. Alternatively, framing the collision avoidance problem as a multi-agent framework, where agents generate dynamic movements while learning to reach their goals, can lead to conflicts with human pedestrians due to their homogeneity. To tackle this problem, we introduce an efficient method that enhances agent diversity within a single policy by maximizing an information-theoretic objective. This diversity enriches each agent’s experiences, improving its adaptability to unseen crowd behaviors. In assessing an agent’s robustness against unseen crowds, we propose diverse scenarios inspired by pedestrian crowd behaviors. Our behavior-conditioned policies outperform existing works in these challenging scenes, reducing potential collisions without additional time or travel.

arxiv情報

著者 Wen Zheng Terence Ng,Jianda Chen,Sinno Jialin Pan,Tianwei Zhang
発行日 2024-10-16 04:46:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク