要約
安全なナビゲーションと適切な人間の相互作用が非常に重要な歩行者が豊富な環境では、自律的なモバイルロボットがますます使用されています。
ディープ強化学習(DRL)は、社会的に統合されたロボットの行動を可能にしますが、斬新なシナリオまたは摂動シナリオには、ポリシーがいつ、なぜ不確実であるかを示すための課題が持続します。
意思決定における未知の不確実性は、衝突や人間の不快感につながる可能性があり、安全でリスクを認識したナビゲーションが依然として開かれた問題である理由の1つです。
この作業では、ポリシー分布の不確実性の推定値のために、アレアトリック、認識論、予測不確実性の推定をDRLナビゲーションフレームワークに統合する新しいアプローチを紹介します。
したがって、観測依存分散(ODV)とドロップアウトを近位政策最適化(PPO)アルゴリズムに組み込みます。
さまざまなタイプの摂動について、深いアンサンブルとモンテカルロドロップアウト(MCドロップアウト)の能力を比較して、ポリシーの不確実性を推定します。
不確実な意思決定状況では、ロボットの社会的行動を保守的な衝突回避に変更することを提案します。
結果は、PPOでのODVとドロップアウトによるトレーニングパフォーマンスの改善を示しており、トレーニングシナリオが一般化に影響を与えることを明らかにしています。
さらに、MCドロップアウトは摂動に対してより敏感であり、不確実性の種類をよりよく相関させます。
安全なアクションの選択により、ロボットは衝突が少ない摂動環境でナビゲートできます。
要約(オリジナル)
Autonomous mobile robots are increasingly used in pedestrian-rich environments where safe navigation and appropriate human interaction are crucial. While Deep Reinforcement Learning (DRL) enables socially integrated robot behavior, challenges persist in novel or perturbed scenarios to indicate when and why the policy is uncertain. Unknown uncertainty in decision-making can lead to collisions or human discomfort and is one reason why safe and risk-aware navigation is still an open problem. This work introduces a novel approach that integrates aleatoric, epistemic, and predictive uncertainty estimation into a DRL navigation framework for policy distribution uncertainty estimates. We, therefore, incorporate Observation-Dependent Variance (ODV) and dropout into the Proximal Policy Optimization (PPO) algorithm. For different types of perturbations, we compare the ability of deep ensembles and Monte-Carlo dropout (MC-dropout) to estimate the uncertainties of the policy. In uncertain decision-making situations, we propose to change the robot’s social behavior to conservative collision avoidance. The results show improved training performance with ODV and dropout in PPO and reveal that the training scenario has an impact on the generalization. In addition, MC-dropout is more sensitive to perturbations and correlates the uncertainty type to the perturbation better. With the safe action selection, the robot can navigate in perturbed environments with fewer collisions.
arxiv情報
| 著者 | Daniel Flögel,Marcos Gómez Villafañe,Joshua Ransiek,Sören Hohmann |
| 発行日 | 2025-02-28 15:38:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google