Adaptive and Explainable Deployment of Navigation Skills via Hierarchical Deep Reinforcement Learning

要約

ロボット車両が目に見えない環境で堅牢かつ安全に移動するには、最適なナビゲーション ポリシーを決定することが重要です。
ただし、既存の深層強化学習ベースのナビゲーション ポリシーのほとんどは、手作業で設計されたカリキュラムと報酬関数を使用してトレーニングされており、現実世界の幅広いシナリオに導入するのは困難です。
このペーパーでは、低レベルのナビゲーション ポリシーのファミリーと、それらを展開するための高レベルのポリシーを学習するためのフレームワークを提案します。
主なアイデアは、固定の報酬関数を持つ単一のナビゲーション ポリシーを学習するのではなく、幅広い報酬関数で異なる動作を示す一連のポリシーを同時に学習するということです。
次に、最適なナビゲーション スキルを適応的に展開する高レベルのポリシーをトレーニングします。
私たちはシミュレーションと現実世界で私たちのアプローチを評価し、私たちの方法が多様なナビゲーションスキルを学習し、それらを適応的に展開できることを実証します。
また、私たちが提案する階層型学習フレームワークが、自律エージェントの動作にセマンティクスを提供することで説明可能性を示すことも示します。

要約(オリジナル)

For robotic vehicles to navigate robustly and safely in unseen environments, it is crucial to decide the most suitable navigation policy. However, most existing deep reinforcement learning based navigation policies are trained with a hand-engineered curriculum and reward function which are difficult to be deployed in a wide range of real-world scenarios. In this paper, we propose a framework to learn a family of low-level navigation policies and a high-level policy for deploying them. The main idea is that, instead of learning a single navigation policy with a fixed reward function, we simultaneously learn a family of policies that exhibit different behaviors with a wide range of reward functions. We then train the high-level policy which adaptively deploys the most suitable navigation skill. We evaluate our approach in simulation and the real world and demonstrate that our method can learn diverse navigation skills and adaptively deploy them. We also illustrate that our proposed hierarchical learning framework presents explainability by providing semantics for the behavior of an autonomous agent.

arxiv情報

著者 Kyowoon Lee,Seongun Kim,Jaesik Choi
発行日 2023-05-31 11:19:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク