要約
階層強化学習 (HRL) は、さまざまな分野で目覚ましい成果をもたらしています。
ただし、既存の HRL アルゴリズムは依然として現実世界のナビゲーション タスクに適用できません。
これらのタスクでは、エージェントが安全を意識した動作を実行し、動的な環境で周囲のオブジェクトと対話する必要があります。
さらに、これらのタスクのエージェントは、長期にわたるものであり、多様なオブジェクトとタスク固有のルールを含む複雑な構造を持っているため、一貫性のある構造化された探索を実行する必要があります。
現実世界のナビゲーション タスクにおけるこれらの課題に対処できる HRL エージェントを設計することは、未解決の問題です。
この論文では、エージェントが現実世界のナビゲーション タスクにおいて安全でインタラクティブな動作を学習できるようにする新しい一般的なナビゲーション アルゴリズムである想像力拡張 HRL (IAHRL) を提案します。
私たちの重要なアイデアは、低レベルのポリシーで想像される動作を解釈することによって、高レベルのポリシーが相互作用を推測する階層エージェントをトレーニングすることです。
具体的には、高レベルのポリシーは順列不変のアテンション メカニズムを使用して設計され、どの低レベルのポリシーが最もインタラクティブな動作を生成するかを決定し、低レベルのポリシーは最適化ベースの動作プランナーを使用して実装され、安全で構造化された動作を生成します。
タスク固有のルールに従ってください。
私たちのアルゴリズムを評価するために、現実世界のナビゲーション タスクの中でも最も困難な 5 つの複雑な都市部の運転タスクを紹介します。
実験結果は、私たちの階層エージェントが安全を意識した行動を実行し、周囲の車両と適切に対話し、都市部の運転タスクにおいてベースラインよりも高い成功率と低い平均エピソードステップを達成していることを示しています。
要約(オリジナル)
Hierarchical reinforcement learning (HRL) has led to remarkable achievements in diverse fields. However, existing HRL algorithms still cannot be applied to real-world navigation tasks. These tasks require an agent to perform safety-aware behaviors and interact with surrounding objects in dynamic environments. In addition, an agent in these tasks should perform consistent and structured exploration as they are long-horizon and have complex structures with diverse objects and task-specific rules. Designing HRL agents that can handle these challenges in real-world navigation tasks is an open problem. In this paper, we propose imagination-augmented HRL (IAHRL), a new and general navigation algorithm that allows an agent to learn safe and interactive behaviors in real-world navigation tasks. Our key idea is to train a hierarchical agent in which a high-level policy infers interactions by interpreting behaviors imagined with low-level policies. Specifically, the high-level policy is designed with a permutation-invariant attention mechanism to determine which low-level policy generates the most interactive behavior, and the low-level policies are implemented with an optimization-based behavior planner to generate safe and structured behaviors following task-specific rules. To evaluate our algorithm, we introduce five complex urban driving tasks, which are among the most challenging real-world navigation tasks. The experimental results indicate that our hierarchical agent performs safety-aware behaviors and properly interacts with surrounding vehicles, achieving higher success rates and lower average episode steps than baselines in urban driving tasks.
arxiv情報
著者 | Sang-Hyun Lee,Yoonjae Jung,Seung-Woo Seo |
発行日 | 2023-11-17 03:41:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google