要約
割引係数が大きい長ホライズンのタスクは、従来の強化学習(RL)アルゴリズムの多くにとって難題である。価値反復学習や時間差学習(TD)のようなアルゴリズムは収束速度が遅く、このようなタスクでは効率が悪くなる。遷移分布が与えられた場合、制御理論からのアイデアを用いてValue Iterationの収束を加速するPID VIが最近導入された。これに触発され、我々は環境からのサンプルのみが利用可能なRL設定のためのPID TD学習とPID Q学習アルゴリズムを導入する。PID TD学習の収束と、従来のTD学習と比較したその高速化について理論的な解析を行う。また、ノイズの存在下でPIDゲインを適応させる方法を紹介し、その有効性を実証的に検証する。
要約(オリジナル)
Long-horizon tasks, which have a large discount factor, pose a challenge for most conventional reinforcement learning (RL) algorithms. Algorithms such as Value Iteration and Temporal Difference (TD) learning have a slow convergence rate and become inefficient in these tasks. When the transition distributions are given, PID VI was recently introduced to accelerate the convergence of Value Iteration using ideas from control theory. Inspired by this, we introduce PID TD Learning and PID Q-Learning algorithms for the RL setting, in which only samples from the environment are available. We give a theoretical analysis of the convergence of PID TD Learning and its acceleration compared to the conventional TD Learning. We also introduce a method for adapting PID gains in the presence of noise and empirically verify its effectiveness.
arxiv情報
著者 | Mark Bedaywi,Amin Rakhsha,Amir-massoud Farahmand |
発行日 | 2024-09-03 16:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |