要約
教師なし強化学習 (URL) の目標は、教師ありの下流タスクでのサンプル効率が向上するように、タスク ドメインで報酬に依存しない事前ポリシーを見つけることです。
このような事前ポリシーで初期化されたエージェントは、下流タスクで微調整すると、より少ないサンプルで大幅に高い報酬を達成できますが、最適な事前トレーニングされた事前ポリシーを実際にどのように達成できるかはまだ未解決の問題です。
この研究では、POLTER (Policy Trajectory Ensemble Regularization) を紹介します。これは、あらゆる URL アルゴリズムに適用でき、特にデータベースおよび知識ベースの URL アルゴリズムで役立つ、事前トレーニングを正規化する一般的な方法です。
事前トレーニング中に発見されたポリシーのアンサンブルを利用し、URL アルゴリズムのポリシーを最適な事前分布に近づけます。
私たちの方法は理論的フレームワークに基づいており、ホワイトボックスベンチマークに対する実際の効果を分析することで、POLTERを完全に制御して研究することができます。
私たちの主な実験では、3 つのドメインの 12 のタスクで構成される教師なし強化学習ベンチマーク (URLB) で POLTER を評価します。
データベースおよび知識ベースの多様な URL アルゴリズムのパフォーマンスを平均 19%、最良のケースでは最大 40% 向上させることで、アプローチの汎用性を実証します。
調整されたベースラインと調整された POLTER との公正な比較の下で、URLB 上のモデルフリー手法の新しい最先端を確立します。
要約(オリジナル)
The goal of Unsupervised Reinforcement Learning (URL) is to find a reward-agnostic prior policy on a task domain, such that the sample-efficiency on supervised downstream tasks is improved. Although agents initialized with such a prior policy can achieve a significantly higher reward with fewer samples when finetuned on the downstream task, it is still an open question how an optimal pretrained prior policy can be achieved in practice. In this work, we present POLTER (Policy Trajectory Ensemble Regularization) – a general method to regularize the pretraining that can be applied to any URL algorithm and is especially useful on data- and knowledge-based URL algorithms. It utilizes an ensemble of policies that are discovered during pretraining and moves the policy of the URL algorithm closer to its optimal prior. Our method is based on a theoretical framework, and we analyze its practical effects on a white-box benchmark, allowing us to study POLTER with full control. In our main experiments, we evaluate POLTER on the Unsupervised Reinforcement Learning Benchmark (URLB), which consists of 12 tasks in 3 domains. We demonstrate the generality of our approach by improving the performance of a diverse set of data- and knowledge-based URL algorithms by 19% on average and up to 40% in the best case. Under a fair comparison with tuned baselines and tuned POLTER, we establish a new state-of-the-art for model-free methods on the URLB.
arxiv情報
著者 | Frederik Schubert,Carolin Benjamins,Sebastian Döhler,Bodo Rosenhahn,Marius Lindauer |
発行日 | 2023-12-15 19:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google