要約
この研究では、オプションを使用して強化学習アルゴリズムを部分観察マルコフ決定プロセス (POMDP) に拡張する方法を比較します。
オプションの 1 つのビューは、一時的に拡張されたアクションであり、エージェントがポリシーのコンテキスト ウィンドウを超えて履歴情報を保持できるようにするメモリとして実現できます。
オプションの割り当てはヒューリスティックと手作りの目標を使用して処理できますが、時間的に一貫したオプションと関連するサブポリシーを明示的な監視なしで学習するのは困難です。
この問題に対処するために、PPOEM と SOAP という 2 つのアルゴリズムが提案され、徹底的に研究されています。
PPOEM は、前方後方アルゴリズム (隠れマルコフ モデル用) を適用して、オプション拡張政策の期待収益を最適化します。
ただし、この学習アプローチは、ポリシーのロールアウト中は不安定です。
また、オプションの割り当てはエピソード全体が利用可能なオフライン シーケンス向けに最適化されているため、将来の軌跡を知らずに因果関係のポリシーを学習するのにも適していません。
代替アプローチとして、SOAP は最適なオプション割り当てのポリシー勾配を評価します。
これは、一般化利点推定 (GAE) の概念を拡張して、オプションの利点を時間を通じて伝播します。これは、オプション政策勾配の時間的逆伝播を実行することと分析的に同等です。
このオプション ポリシーは、エージェントの履歴にのみ条件があり、将来のアクションには条件がありません。
競合するベースラインと比較して評価した場合、SOAP は最も堅牢なパフォーマンスを示し、POMDP コリドー環境のオプションを正しく検出し、Atari や MuJoCo などの標準ベンチマークでも PPOEM や LSTM および Option-Critic ベースラインを上回りました。
オープンソースのコードは https://github.com/shuishida/SoapRL で入手できます。
要約(オリジナル)
This work compares ways of extending Reinforcement Learning algorithms to Partially Observed Markov Decision Processes (POMDPs) with options. One view of options is as temporally extended action, which can be realized as a memory that allows the agent to retain historical information beyond the policy’s context window. While option assignment could be handled using heuristics and hand-crafted objectives, learning temporally consistent options and associated sub-policies without explicit supervision is a challenge. Two algorithms, PPOEM and SOAP, are proposed and studied in depth to address this problem. PPOEM applies the forward-backward algorithm (for Hidden Markov Models) to optimize the expected returns for an option-augmented policy. However, this learning approach is unstable during on-policy rollouts. It is also unsuited for learning causal policies without the knowledge of future trajectories, since option assignments are optimized for offline sequences where the entire episode is available. As an alternative approach, SOAP evaluates the policy gradient for an optimal option assignment. It extends the concept of the generalized advantage estimation (GAE) to propagate option advantages through time, which is an analytical equivalent to performing temporal back-propagation of option policy gradients. This option policy is only conditional on the history of the agent, not future actions. Evaluated against competing baselines, SOAP exhibited the most robust performance, correctly discovering options for POMDP corridor environments, as well as on standard benchmarks including Atari and MuJoCo, outperforming PPOEM, as well as LSTM and Option-Critic baselines. The open-sourced code is available at https://github.com/shuishida/SoapRL.
arxiv情報
著者 | Shu Ishida,João F. Henriques |
発行日 | 2024-07-26 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google