A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning

要約

オフダイナミクス強化学習 (ODRL) は、ソース環境から、明確でありながら類似したダイナミクスによって特徴付けられるターゲット環境にポリシーを転送しようとします。
これに関連して、従来の RL エージェントはソース環境のダイナミクスに過度に依存するため、この環境では優れているものの、ターゲット環境では適切なパフォーマンスを提供できないポリシーが発見されます。
少数ショット フレームワークでは、より効果的な転送を促進するために、ターゲット環境からの限られた数の移行が導入されます。
この課題に対処するために、私たちは模倣学習と保守的な RL アルゴリズムの最近の進歩に触発された革新的なアプローチを提案します。
提案された方法は、ソーストレーニングされたポリシーによって生成された軌道を規制するペナルティを導入します。
私たちは、ターゲット環境へのアクセスが非常に制限されている、多様なオフダイナミクス条件を表すさまざまな環境にわたってメソッドを評価します。
これらの実験には、現実世界のアプリケーションに関連する高次元システムが含まれます。
ほとんどのテスト済みシナリオにおいて、私たちが提案した方法は、既存のベースラインと比較してパフォーマンスの向上を示しています。

要約(オリジナル)

Off-dynamics Reinforcement Learning (ODRL) seeks to transfer a policy from a source environment to a target environment characterized by distinct yet similar dynamics. In this context, traditional RL agents depend excessively on the dynamics of the source environment, resulting in the discovery of policies that excel in this environment but fail to provide reasonable performance in the target one. In the few-shot framework, a limited number of transitions from the target environment are introduced to facilitate a more effective transfer. Addressing this challenge, we propose an innovative approach inspired by recent advancements in Imitation Learning and conservative RL algorithms. The proposed method introduces a penalty to regulate the trajectories generated by the source-trained policy. We evaluate our method across various environments representing diverse off-dynamics conditions, where access to the target environment is extremely limited. These experiments include high-dimensional systems relevant to real-world applications. Across most tested scenarios, our proposed method demonstrates performance improvements compared to existing baselines.

arxiv情報

著者 Paul Daoudi,Christophe Prieur,Bogdan Robu,Merwan Barlier,Ludovic Dos Santos
発行日 2024-07-15 15:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク