要約
階層強化学習 (HRL) アプローチは、さまざまな複雑で構造化された長期的な問題の解決に成功した結果を示しています。
それにもかかわらず、この経験的証拠の完全な理論的理解は現在不足しています。
\emph{option} フレームワークのコンテキストでは、先行研究により、オプションが固定され、オプション間で選択する高レベルのポリシーを学習するだけで済むシナリオ向けの効率的なアルゴリズムが考案されています。
しかし、高レベルのポリシーと低レベルのポリシーの両方が学習される完全に現実的なシナリオは、理論的な観点からは驚くべきことに無視されています。
この研究は、この後者のシナリオの理解に向けた一歩を踏み出します。
有限地平線問題に焦点を当て、異なる (高および低) 時間抽象化でインスタンス化されたリグレス最小化アルゴリズムを交互に実行するメタ アルゴリズムを提示します。
より高いレベルでは、固定された低レベルのポリシーを使用して問題をセミマルコフ決定プロセス (SMDP) として扱いますが、より低いレベルでは、内部オプションのポリシーは固定された高レベルのポリシーを使用して学習されます。
導出された境界は、非階層的な有限水平問題の下限と比較され、事前にトレーニングされたオプションがない場合でも、階層的なアプローチが望ましいことが証明される時期を特徴付けることができます。
要約(オリジナル)
Hierarchical Reinforcement Learning (HRL) approaches have shown successful results in solving a large variety of complex, structured, long-horizon problems. Nevertheless, a full theoretical understanding of this empirical evidence is currently missing. In the context of the \emph{option} framework, prior research has devised efficient algorithms for scenarios where options are fixed, and the high-level policy selecting among options only has to be learned. However, the fully realistic scenario in which both the high-level and the low-level policies are learned is surprisingly disregarded from a theoretical perspective. This work makes a step towards the understanding of this latter scenario. Focusing on the finite-horizon problem, we present a meta-algorithm alternating between regret minimization algorithms instanced at different (high and low) temporal abstractions. At the higher level, we treat the problem as a Semi-Markov Decision Process (SMDP), with fixed low-level policies, while at a lower level, inner option policies are learned with a fixed high-level policy. The bounds derived are compared with the lower bound for non-hierarchical finite-horizon problems, allowing to characterize when a hierarchical approach is provably preferable, even without pre-trained options.
arxiv情報
著者 | Gianluca Drappo,Alberto Maria Metelli,Marcello Restelli |
発行日 | 2024-06-21 13:17:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google