Imagination-Augmented Hierarchical Reinforcement Learning for Safe and Interactive Autonomous Driving in Urban Environments

要約

階層型強化学習 (HRL) は、階層構造を明示的に利用することで、時間的抽象化を強化学習 (RL) に組み込みます。
最新の HRL は通常、高レベルのポリシーと低レベルのポリシーで構成される階層エージェントを設計します。
高レベル ポリシーは、より低い頻度でアクティブ化する低レベル ポリシーを選択し、アクティブ化された低レベル ポリシーは各タイム ステップでのアクションを選択します。
最近の HRL アルゴリズムは、合成ナビゲーション タスクにおいて標準の RL アルゴリズムを上回るパフォーマンスの向上を達成しました。
ただし、これらの HRL アルゴリズムを現実世界のナビゲーション タスクに適用することはできません。
主な課題の 1 つは、現実世界のナビゲーション タスクでは、エージェントが動的な環境で安全でインタラクティブな動作を実行する必要があることです。
この論文では、想像力を HRL に効率的に統合して、エージェントが現実世界のナビゲーション タスクにおいて安全でインタラクティブな行動を学習できるようにする想像力拡張 HRL (IAHRL) を提案します。
想像力とは、実際の環境との相互作用なしに行動の結果を予測することです。
IAHRL の背後にある重要な考え方は、低レベルのポリシーが安全で構造化された動作を想像し、その後、高レベルのポリシーが想像された動作を解釈することによって周囲のオブジェクトとの相互作用を推測するというものです。
また、高レベルのポリシーが周囲のオブジェクトの順序に対して順列不変であり、それらよりもエージェントを優先できるようにする新しいアテンション メカニズムも導入します。
IAHRL を評価するために、現実世界で最も困難なナビゲーション タスクの 1 つである 5 つの複雑な都市部の運転タスクを紹介します。
実験結果は、IAHRL によりエージェントが安全でインタラクティブな行動を実行できるようになり、ベースラインよりも高い成功率と低い平均エピソード ステップを達成できることを示しています。

要約(オリジナル)

Hierarchical reinforcement learning (HRL) incorporates temporal abstraction into reinforcement learning (RL) by explicitly taking advantage of hierarchical structure. Modern HRL typically designs a hierarchical agent composed of a high-level policy and low-level policies. The high-level policy selects which low-level policy to activate at a lower frequency and the activated low-level policy selects an action at each time step. Recent HRL algorithms have achieved performance gains over standard RL algorithms in synthetic navigation tasks. However, we cannot apply these HRL algorithms to real-world navigation tasks. One of the main challenges is that real-world navigation tasks require an agent to perform safe and interactive behaviors in dynamic environments. In this paper, we propose imagination-augmented HRL (IAHRL) that efficiently integrates imagination into HRL to enable an agent to learn safe and interactive behaviors in real-world navigation tasks. Imagination is to predict the consequences of actions without interactions with actual environments. The key idea behind IAHRL is that the low-level policies imagine safe and structured behaviors, and then the high-level policy infers interactions with surrounding objects by interpreting the imagined behaviors. We also introduce a new attention mechanism that allows our high-level policy to be permutation-invariant to the order of surrounding objects and to prioritize our agent over them. To evaluate IAHRL, we introduce five complex urban driving tasks, which are among the most challenging real-world navigation tasks. The experimental results indicate that IAHRL enables an agent to perform safe and interactive behaviors, achieving higher success rates and lower average episode steps than baselines.

arxiv情報

著者 Sang-Hyun Lee,Yoonjae Jung,Seung-Woo Seo
発行日 2024-01-23 06:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク