Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning

要約

ベイジアン ポリシー再利用 (BPR) は、いくつかの観測信号とトレーニングされた観測モデルに基づいてタスクの信念を推測することによって、オフライン ライブラリからソース ポリシーを選択するための一般的なポリシー転送フレームワークです。
この論文では、深層強化学習 (DRL) におけるより効率的なポリシー転送を実現するための改良された BPR 手法を提案します。
まず、ほとんどの BPR アルゴリズムは、限られた情報を含み、エピソードが終了するまで取得できない観測信号としてエピソード リターンを使用します。
代わりに、より速く、より正確なタスク推論のための観察信号として、有益かつ瞬間的な状態遷移サンプルを使用します。
第 2 に、BPR アルゴリズムでは通常、表ベースの観測モデルの確率分布を推定するために多数のサンプルが必要ですが、特に状態遷移サンプルを信号として使用する場合、コストが高くつき、学習や維持が不可能になる可能性があります。
したがって、少数のサンプルからのソース タスクの状態遷移関数のフィッティングに基づいたスケーラブルな観測モデルを提案します。これは、ターゲット タスクで観測されるあらゆる信号に一般化できます。
さらに、プラグアンドプレイ方式でスケーラブルな観察モデルを拡張することで、オフライン モードの BPR を継続学習設定に拡張します。これにより、新しい未知のタスクに直面したときのマイナスの転送を回避できます。
実験結果は、私たちの方法がより迅速かつ効率的なポリシーの転送を一貫して促進できることを示しています。

要約(オリジナル)

Bayesian policy reuse (BPR) is a general policy transfer framework for selecting a source policy from an offline library by inferring the task belief based on some observation signals and a trained observation model. In this paper, we propose an improved BPR method to achieve more efficient policy transfer in deep reinforcement learning (DRL). First, most BPR algorithms use the episodic return as the observation signal that contains limited information and cannot be obtained until the end of an episode. Instead, we employ the state transition sample, which is informative and instantaneous, as the observation signal for faster and more accurate task inference. Second, BPR algorithms usually require numerous samples to estimate the probability distribution of the tabular-based observation model, which may be expensive and even infeasible to learn and maintain, especially when using the state transition sample as the signal. Hence, we propose a scalable observation model based on fitting state transition functions of source tasks from only a small number of samples, which can generalize to any signals observed in the target task. Moreover, we extend the offline-mode BPR to the continual learning setting by expanding the scalable observation model in a plug-and-play fashion, which can avoid negative transfer when faced with new unknown tasks. Experimental results show that our method can consistently facilitate faster and more efficient policy transfer.

arxiv情報

著者 Jinmei Liu,Zhi Wang,Chunlin Chen,Daoyi Dong
発行日 2023-07-13 10:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク