要約
深層強化学習 (DRL) アルゴリズムでは、学習したポリシーを異なる視覚入力を持つ新しい環境に転送することが重要です。
このホワイト ペーパーでは、Prompt based Proximal Policy Optimization ($P^{3}O$) を紹介します。これは、プロンプトを適用することによってターゲットからソース環境に視覚的表現を転送する 3 段階の DRL アルゴリズムです。
$P^{3}O$ のプロセスは、事前トレーニング、プロンプト、予測の 3 つの段階で構成されます。
特に、表現変換用のプロンプト トランスフォーマーを指定し、ターゲット環境用にプロンプト トランスフォーマーをトレーニングするための 2 段階のトレーニング プロセスを提案しますが、残りの DRL パイプラインは変更されません。
$P^{3}O$ を実装し、OpenAI CarRacing ビデオ ゲームで評価します。
実験結果は、$P^{3}O$ が最先端のビジュアル転送スキームよりも優れていることを示しています。
特に、$P^{3}O$ を使用すると、学習したポリシーをさまざまな視覚入力のある環境でうまく機能させることができます。これは、これらの環境でポリシーを再トレーニングするよりもはるかに効果的です。
要約(オリジナル)
It is important for deep reinforcement learning (DRL) algorithms to transfer their learned policies to new environments that have different visual inputs. In this paper, we introduce Prompt based Proximal Policy Optimization ($P^{3}O$), a three-stage DRL algorithm that transfers visual representations from a target to a source environment by applying prompting. The process of $P^{3}O$ consists of three stages: pre-training, prompting, and predicting. In particular, we specify a prompt-transformer for representation conversion and propose a two-step training process to train the prompt-transformer for the target environment, while the rest of the DRL pipeline remains unchanged. We implement $P^{3}O$ and evaluate it on the OpenAI CarRacing video game. The experimental results show that $P^{3}O$ outperforms the state-of-the-art visual transferring schemes. In particular, $P^{3}O$ allows the learned policies to perform well in environments with different visual inputs, which is much more effective than retraining the policies in these environments.
arxiv情報
著者 | Guoliang You,Xiaomeng Chu,Yifan Duan,Jie Peng,Jianmin Ji,Yu Zhang,Yanyong Zhang |
発行日 | 2023-03-22 08:14:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google