Value Explicit Pretraining for Learning Transferable Representations

要約

我々は、伝達強化学習のための一般化可能な表現を学習する手法である、Value Explicit Pretraining (VEP) を提案します。
VEP は、外観の変化や環境のダイナミクスに関係なく、目的条件付き表現のエンコーダーを学習することにより、以前に学習したタスクと同様の目的を共有する新しいタスクの学習を可能にします。
一連の観察からエンコーダーを事前トレーニングするために、時間的に滑らかな表現を学習する自己教師ありコントラスト損失を使用します。
VEP は、タスクの進行状況を反映するベルマン リターン推定に基づいて、さまざまなタスク間で状態を関連付けることを学習します。
現実的なナビゲーション シミュレーターと Atari ベンチマークを使用した実験では、私たちの方法で生成された事前トレーニング済みエンコーダーが、目に見えないタスクを一般化する能力において、現在の SoTA 事前トレーニング方法よりも優れていることが示されています。
VEP は、Atari とビジュアル ナビゲーションでの報酬を最大 2 倍向上させ、サンプル効率を最大 3 倍向上させます。
ポリシーのパフォーマンスに関するビデオについては、https://sites.google.com/view/value-explicit-pretraining/ をご覧ください。

要約(オリジナル)

We propose Value Explicit Pretraining (VEP), a method that learns generalizable representations for transfer reinforcement learning. VEP enables learning of new tasks that share similar objectives as previously learned tasks, by learning an encoder for objective-conditioned representations, irrespective of appearance changes and environment dynamics. To pre-train the encoder from a sequence of observations, we use a self-supervised contrastive loss that results in learning temporally smooth representations. VEP learns to relate states across different tasks based on the Bellman return estimate that is reflective of task progress. Experiments using a realistic navigation simulator and Atari benchmark show that the pretrained encoder produced by our method outperforms current SoTA pretraining methods on the ability to generalize to unseen tasks. VEP achieves up to a 2 times improvement in rewards on Atari and visual navigation, and up to a 3 times improvement in sample efficiency. For videos of policy performance visit our https://sites.google.com/view/value-explicit-pretraining/

arxiv情報

著者 Kiran Lekkala,Henghui Bao,Sumedh Sontakke,Laurent Itti
発行日 2024-03-07 10:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク