要約
強化学習(RL)により、ソーシャルロボットは、人間が設計したルールや介入に依存することなく軌道を生成でき、一般的に複雑で動的な現実世界のシナリオに適応するルールベースのシステムよりも効果的になります。
ただし、ソーシャルナビゲーションは、歩行者との衝突を避けるためにロボットを必要とする安全性の高いタスクですが、既存のRLベースのソリューションは、複雑な環境での安全性を確保することができないことがよくあります。
このホワイトペーパーでは、ソニックを提案します。これは、私たちの知る限り、ソーシャルナビゲーションの安全な政策学習を可能にするために、適応型コンフォーマル推論(ACI)を制約された強化学習(CRL)と統合する最初のアルゴリズムです。
具体的には、我々の方法は、ACi産生の不適合スコアを使用したRL観測を強化するだけでなく、エージェントに定量化された不確実性を通知するだけでなく、これらの不確実性の推定値を使用して、制約された強化学習を使用してRLエージェントの行動を効果的に導きます。
この統合により、RLエージェントの動作が調節され、安全性が批判的な状況を処理できます。
標準のCrowdNavベンチマークでは、私たちの方法は96.93%の成功率を達成します。これは、以前の最先端のRLメソッドよりも11.67%高く、衝突の4.5倍、侵入が2.8倍少なくなります。
将来の軌跡と、分散型シナリオの堅牢性の向上。
アプローチをさらに検証するために、ROS2ベースのナビゲーションシステムを開発することにより、アルゴリズムを実際のロボットに展開します。
私たちの実験は、システムがまばらな群衆と密集した群衆の両方と相互作用するときに、堅牢で社会的に丁寧な意思決定を生成できることを示しています。
ビデオデモは、プロジェクトのWebサイトhttps://sonic-social-nav.github.io/にあります。
要約(オリジナル)
Reinforcement learning (RL) enables social robots to generate trajectories without relying on human-designed rules or interventions, making it generally more effective than rule-based systems in adapting to complex, dynamic real-world scenarios. However, social navigation is a safety-critical task that requires robots to avoid collisions with pedestrians, whereas existing RL-based solutions often fall short of ensuring safety in complex environments. In this paper, we propose SoNIC, which to the best of our knowledge is the first algorithm that integrates adaptive conformal inference (ACI) with constrained reinforcement learning (CRL) to enable safe policy learning for social navigation. Specifically, our method not only augments RL observations with ACI-generated nonconformity scores, which inform the agent of the quantified uncertainty but also employs these uncertainty estimates to effectively guide the behaviors of RL agents by using constrained reinforcement learning. This integration regulates the behaviors of RL agents and enables them to handle safety-critical situations. On the standard CrowdNav benchmark, our method achieves a success rate of 96.93%, which is 11.67% higher than the previous state-of-the-art RL method and results in 4.5 times fewer collisions and 2.8 times fewer intrusions to ground-truth human future trajectories as well as enhanced robustness in out-of-distribution scenarios. To further validate our approach, we deploy our algorithm on a real robot by developing a ROS2-based navigation system. Our experiments demonstrate that the system can generate robust and socially polite decision-making when interacting with both sparse and dense crowds. The video demos can be found on our project website: https://sonic-social-nav.github.io/.
arxiv情報
著者 | Jianpeng Yao,Xiaopan Zhang,Yu Xia,Zejin Wang,Amit K. Roy-Chowdhury,Jiachen Li |
発行日 | 2025-02-06 18:55:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google