Robot Crowd Navigation in Dynamic Environment with Offline Reinforcement Learning

要約

ロボット群衆ナビゲーションは、さまざまな実用的な用途でますます注目と人気を集めています。
既存の研究では、オンライン モードでポリシーをトレーニングすることにより、深層強化学習がロボット群のナビゲーションに適用されています。
しかし、これは必然的に安全でない探査につながり、その結果、歩行者とロボットのインタラクション中にサンプリング効率が低下します。
この目的を達成するために、事前に収集された群衆ナビゲーション経験を利用することにより、オフライン強化学習ベースのロボット群衆ナビゲーションアルゴリズムを提案します。
具体的には、このアルゴリズムは時空間状態を暗黙的 Q ラーニングに統合し、事前に収集されたエクスペリエンスの分布外のロボット動作のクエリを回避しながら、オフラインの歩行者とロボットのインタラクションから時空間特徴をキャプチャします。
実験結果は、提案されたアルゴリズムが定性的および定量的分析によって最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Robot crowd navigation has been gaining increasing attention and popularity in various practical applications. In existing research, deep reinforcement learning has been applied to robot crowd navigation by training policies in an online mode. However, this inevitably leads to unsafe exploration, and consequently causes low sampling efficiency during pedestrian-robot interaction. To this end, we propose an offline reinforcement learning based robot crowd navigation algorithm by utilizing pre-collected crowd navigation experience. Specifically, this algorithm integrates a spatial-temporal state into implicit Q-Learning to avoid querying out-of-distribution robot actions of the pre-collected experience, while capturing spatial-temporal features from the offline pedestrian-robot interactions. Experimental results demonstrate that the proposed algorithm outperforms the state-of-the-art methods by means of qualitative and quantitative analysis.

arxiv情報

著者 Shuai Zhou,Hao Fu,Haodong He,Wei Liu
発行日 2023-12-18 09:06:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク