Spatio-Temporal Transformer-Based Reinforcement Learning for Robot Crowd Navigation

要約

ソーシャル ロボットのナビゲーションは、未解決かつ困難な問題です。
既存の研究では、空間的特徴と時間的特徴をそれぞれキャプチャするために別個のモジュールが使用されています。
しかし、そのような方法では、時空間特徴の利用を改善し、ナビゲーション ポリシーの保守的な性質を軽減する際に、さらなる困難が生じます。
これを考慮して、時空間機能の利用を強化し、それによって人間とロボットのインタラクションの捕捉を容易にする、時空間トランスフォーマーベースのポリシー最適化アルゴリズムを提案します。
具体的には、この論文では、両方のモダリティを特徴レベルで統合することにより、空間表現と時間表現を効果的に調整するゲート型埋め込みメカニズムを紹介します。
次に、最適なナビゲーション ポリシーを見つけることを期待して、Transformer を利用して時空間的な意味情報をエンコードします。
最後に、時空間トランスフォーマーと自己調整ポリシー エントロピーの組み合わせにより、ナビゲーション ポリシーの保守主義が大幅に軽減されます。
実験結果は、提案されたフレームワークの有効性を示しており、私たちの方法が優れたパフォーマンスを示しています。

要約(オリジナル)

The social robot navigation is an open and challenging problem. In existing work, separate modules are used to capture spatial and temporal features, respectively. However, such methods lead to extra difficulties in improving the utilization of spatio-temporal features and reducing the conservative nature of navigation policy. In light of this, we present a spatio-temporal transformer-based policy optimization algorithm to enhance the utilization of spatio-temporal features, thereby facilitating the capture of human-robot interactions. Specifically, this paper introduces a gated embedding mechanism that effectively aligns the spatial and temporal representations by integrating both modalities at the feature level. Then Transformer is leveraged to encode the spatio-temporal semantic information, with hope of finding the optimal navigation policy. Finally, a combination of spatio-temporal Transformer and self-adjusting policy entropy significantly reduces the conservatism of navigation policies. Experimental results demonstrate the effectiveness of the proposed framework, where our method shows superior performance.

arxiv情報

著者 Haodong He,Hao Fu,Qiang Wang,Shuai Zhou,Wei Liu
発行日 2023-05-26 04:13:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク