要約
2 つのマルコフ決定プロセス (MDP) 間のポリシー転送の問題を検討します。
我々は、強化学習における既存の理論結果に基づいた補題を導入して、任意の 2 つの MDP 間の相対性ギャップ、つまり、異なる政策と環境ダイナミクスで定義された任意の 2 つの累積期待収益間の差を測定します。
この補題に基づいて、相対ポリシー最適化 (RPO) と相対遷移最適化 (RTO) と呼ばれる 2 つの新しいアルゴリズムを提案します。これらは、それぞれ高速なポリシー転送とダイナミクス モデリングを提供します。
RPO は、ある環境で評価されたポリシーを転送して、別の環境での収益を最大化します。一方、RTO は、パラメータ化されたダイナミクス モデルを更新して、2 つの環境のダイナミクス間のギャップを削減します。
2 つのアルゴリズムを統合すると、完全な相対ポリシー移行最適化 (RPTO) アルゴリズムが得られます。このアルゴリズムでは、ポリシーが 2 つの環境と同時に対話し、2 つの環境からのデータ収集、ポリシーおよび移行の更新が 1 つの閉ループで完了して、
政策移転のための原則的な学習フレームワーク。
バリアントダイナミクスを介してポリシー転送問題を作成することにより、一連の MuJoCo 継続的制御タスクに対する RPTO の有効性を実証します。
要約(オリジナル)
We consider the problem of policy transfer between two Markov Decision Processes (MDPs). We introduce a lemma based on existing theoretical results in reinforcement learning to measure the relativity gap between two arbitrary MDPs, that is the difference between any two cumulative expected returns defined on different policies and environment dynamics. Based on this lemma, we propose two new algorithms referred to as Relative Policy Optimization (RPO) and Relative Transition Optimization (RTO), which offer fast policy transfer and dynamics modelling, respectively. RPO transfers the policy evaluated in one environment to maximize the return in another, while RTO updates the parameterized dynamics model to reduce the gap between the dynamics of the two environments. Integrating the two algorithms results in the complete Relative Policy-Transition Optimization (RPTO) algorithm, in which the policy interacts with the two environments simultaneously, such that data collections from two environments, policy and transition updates are completed in one closed loop to form a principled learning framework for policy transfer. We demonstrate the effectiveness of RPTO on a set of MuJoCo continuous control tasks by creating policy transfer problems via variant dynamics.
arxiv情報
著者 | Jiawei Xu,Cheng Zhou,Yizheng Zhang,Baoxiang Wang,Lei Han |
発行日 | 2024-01-24 15:23:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google