Highway Reinforcement Learning

要約

一連のポリシーによって収集されたマルチステップのポリシー外データからの学習は、強化学習 (RL) の中核的な問題です。
重要度サンプリング (IS) に基づくアプローチでは、IS 比の積により大きな変動が生じることがよくあります。
$n$ ステップ Q ラーニングなどの典型的な IS フリー手法は、アクションの軌跡に沿って $n$ タイム ステップを先読みし ($n$ は先読み深さと呼ばれます)、オフポリシー データを何もせずに直接利用します。
追加調整。
これらは、$n$ を適切に選択する場合にうまく機能します。
しかし、このようなISフリー手法は、特に大きな$n$に対して最適値関数(VF)を過小評価し、遠い将来のタイムステップからの情報を効率的に利用する能力を制限することを示します。
この問題を克服するために、過小評価の問題を回避し、最適な VF に収束する、新しい、IS フリーのマルチステップ オフポリシー手法を導入します。
その中心には、単純だが自明ではない \emph{ハイウェイ ゲート} があり、遠い未来からの情報の流れをしきい値と比較することで制御します。
ハイウェイ ゲートは、任意の $n$ および任意の動作ポリシーに対する最適な VF への収束を保証します。
これにより、$n$ が非常に大きい場合でも安全に学習するオフポリシー RL アルゴリズムの新しいファミリーが誕生し、遠い未来から過去への迅速なクレジット割り当てが容易になります。
ゲーム終了時にのみ報酬が与えられるビデオゲームなど、報酬が大幅に遅れるタスクでは、私たちの新しい手法は多くの既存のマルチステップオフポリシーアルゴリズムよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Learning from multi-step off-policy data collected by a set of policies is a core problem of reinforcement learning (RL). Approaches based on importance sampling (IS) often suffer from large variances due to products of IS ratios. Typical IS-free methods, such as $n$-step Q-learning, look ahead for $n$ time steps along the trajectory of actions (where $n$ is called the lookahead depth) and utilize off-policy data directly without any additional adjustment. They work well for proper choices of $n$. We show, however, that such IS-free methods underestimate the optimal value function (VF), especially for large $n$, restricting their capacity to efficiently utilize information from distant future time steps. To overcome this problem, we introduce a novel, IS-free, multi-step off-policy method that avoids the underestimation issue and converges to the optimal VF. At its core lies a simple but non-trivial \emph{highway gate}, which controls the information flow from the distant future by comparing it to a threshold. The highway gate guarantees convergence to the optimal VF for arbitrary $n$ and arbitrary behavioral policies. It gives rise to a novel family of off-policy RL algorithms that safely learn even when $n$ is very large, facilitating rapid credit assignment from the far future to the past. On tasks with greatly delayed rewards, including video games where the reward is given only at the end of the game, our new methods outperform many existing multi-step off-policy algorithms.

arxiv情報

著者 Yuhui Wang,Miroslav Strupl,Francesco Faccio,Qingyuan Wu,Haozhe Liu,Michał Grudzień,Xiaoyang Tan,Jürgen Schmidhuber
発行日 2024-05-28 15:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク