要約
教師なし強化学習 (URL) は、さまざまなダウンストリーム タスクの迅速な適応を促進するための外因性報酬のガイダンスなしで、タスクに依存しない環境で有用な動作を学習するための有望なパラダイムをもたらします。
以前の研究では、モデルを使用しない方法で事前トレーニングに焦点を当てていましたが、下流のタスクでサンプル効率を改善するための大きなスペースを残す遷移ダイナミクス モデリングの研究が欠けていました。
この目的のために、マルチチョイスダイナミクスモデル(EUCLID)を使用した効率的な教師なし強化学習フレームワークを提案します。これは、事前トレーニングフェーズでダイナミクスモデルと教師なし探索ポリシーを共同で事前トレーニングするための新しいモデル融合パラダイムを導入します。
環境サンプルをより有効に活用し、ダウンストリーム タスクのサンプリング効率を向上させます。
ただし、さまざまな動作の下でローカルのダイナミクスをキャプチャする一般化可能なモデルを構築することは、依然として困難な問題です。
教師なし事前トレーニング中に異なる動作での状態遷移を学習するために異なるヘッドを使用し、下流タスクでの予測に最も適切なヘッドを選択する、異なる動作での異なるローカル ダイナミクスを同時にカバーするマルチチョイス ダイナミクス モデルを導入します。
操作および移動ドメインでの実験結果は、EUCLID が高いサンプル効率で最先端のパフォーマンスを達成し、基本的に状態ベースの URLB ベンチマークを解決し、平均正規化スコア 104.0$\pm$1.2$\%$ に到達することを示しています。
これは、20 倍のデータを使用した 2M のインタラクティブ ステップでの DDPG のパフォーマンスに相当します。
要約(オリジナル)
Unsupervised reinforcement learning (URL) poses a promising paradigm to learn useful behaviors in a task-agnostic environment without the guidance of extrinsic rewards to facilitate the fast adaptation of various downstream tasks. Previous works focused on the pre-training in a model-free manner while lacking the study of transition dynamics modeling that leaves a large space for the improvement of sample efficiency in downstream tasks. To this end, we propose an Efficient Unsupervised Reinforcement Learning Framework with Multi-choice Dynamics model (EUCLID), which introduces a novel model-fused paradigm to jointly pre-train the dynamics model and unsupervised exploration policy in the pre-training phase, thus better leveraging the environmental samples and improving the downstream task sampling efficiency. However, constructing a generalizable model which captures the local dynamics under different behaviors remains a challenging problem. We introduce the multi-choice dynamics model that covers different local dynamics under different behaviors concurrently, which uses different heads to learn the state transition under different behaviors during unsupervised pre-training and selects the most appropriate head for prediction in the downstream task. Experimental results in the manipulation and locomotion domains demonstrate that EUCLID achieves state-of-the-art performance with high sample efficiency, basically solving the state-based URLB benchmark and reaching a mean normalized score of 104.0$\pm$1.2$\%$ in downstream tasks with 100k fine-tuning steps, which is equivalent to DDPG’s performance at 2M interactive steps with 20x more data.
arxiv情報
著者 | Yifu Yuan,Jianye Hao,Fei Ni,Yao Mu,Yan Zheng,Yujing Hu,Jinyi Liu,Yingfeng Chen,Changjie Fan |
発行日 | 2023-02-22 03:55:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google