要約
オフポリシー学習能力は、実際のアプリケーション向けの強化学習 (RL) の重要な機能です。
ただし、最も基本的な RL アルゴリズムの 1 つである時間差分 (TD) 学習でさえ、オフポリシー スキームが線形関数近似と共に使用されると、フォーム ダイバージェンスの問題が発生することが知られています。
発散動作を克服するために、勾配 TD 学習 (GTD) や補正付き TD 学習 (TDC) など、いくつかのポリシー外の TD 学習アルゴリズムがこれまで開発されてきました。
この作業では、純粋に制御理論の観点からそのようなアルゴリズムの統一されたビューを提供し、新しい収束アルゴリズムを提案します。
この手法は、非線形制御理論で広く使用されているバックステッピング手法に依存しています。
最後に、提案されたアルゴリズムの収束は、標準的な TD 学習が不安定であることが知られている環境で実験的に検証されます。
要約(オリジナル)
Off-policy learning ability is an important feature of reinforcement learning (RL) for practical applications. However, even one of the most elementary RL algorithms, temporal-difference (TD) learning, is known to suffer form divergence issue when the off-policy scheme is used together with linear function approximation. To overcome the divergent behavior, several off-policy TD-learning algorithms, including gradient-TD learning (GTD), and TD-learning with correction (TDC), have been developed until now. In this work, we provide a unified view of such algorithms from a purely control-theoretic perspective, and propose a new convergent algorithm. Our method relies on the backstepping technique, which is widely used in nonlinear control theory. Finally, convergence of the proposed algorithm is experimentally verified in environments where the standard TD-learning is known to be unstable.
arxiv情報
著者 | Han-Dong Lim,Donghwan Lee |
発行日 | 2023-02-20 10:06:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google