Language Reward Modulation for Pretraining Reinforcement Learning

要約

スパース報酬強化学習 (RL) タスクを解決する手段として学習報酬関数 (LRF) を使用することで、長年にわたってタスクの複雑さは着実に進歩してきました。
この研究では、今日の LRF がタスク報酬の直接の代替として最適であるかどうかを疑問視します。
代わりに、RL の事前トレーニング信号として LRF の機能を活用することを提案します。
具体的には、視覚言語モデル (VLM) のゼロショット機能を $\textbf{M}$odulated $\textbf{P}$retraining (LAMP) として利用する $\textbf{LA}$nguage 報酬を提案します。
下流タスクの報酬ではなく、RL のための \textit{pretraining}$ ユーティリティ。
LAMP は、凍結された事前トレーニングされた VLM を使用して、非常に多様な言語命令のコレクションと、事前トレーニング環境でのエージェントの画像観察の間の対照的な配置を計算することにより、ノイズの多い、たとえ整形された探索報酬をスケーラブルに生成します。
LAMP は、言語条件付きの事前トレーニング済みポリシーを取得するための強化学習による標準的な新規性を求める探索報酬と組み合わせて、これらの報酬を最適化します。
私たちの VLM 事前トレーニング アプローチは、LRF を使用する以前の試みとは異なり、RLBench でのロボット操作タスクに関するサンプル効率の高い学習をウォームスタートできます。

要約(オリジナル)

Using learned reward functions (LRFs) as a means to solve sparse-reward reinforcement learning (RL) tasks has yielded some steady progress in task-complexity through the years. In this work, we question whether today’s LRFs are best-suited as a direct replacement for task rewards. Instead, we propose leveraging the capabilities of LRFs as a pretraining signal for RL. Concretely, we propose $\textbf{LA}$nguage Reward $\textbf{M}$odulated $\textbf{P}$retraining (LAMP) which leverages the zero-shot capabilities of Vision-Language Models (VLMs) as a $\textit{pretraining}$ utility for RL as opposed to a downstream task reward. LAMP uses a frozen, pretrained VLM to scalably generate noisy, albeit shaped exploration rewards by computing the contrastive alignment between a highly diverse collection of language instructions and the image observations of an agent in its pretraining environment. LAMP optimizes these rewards in conjunction with standard novelty-seeking exploration rewards with reinforcement learning to acquire a language-conditioned, pretrained policy. Our VLM pretraining approach, which is a departure from previous attempts to use LRFs, can warmstart sample-efficient learning on robot manipulation tasks in RLBench.

arxiv情報

著者 Ademi Adeniji,Amber Xie,Carmelo Sferrazza,Younggyo Seo,Stephen James,Pieter Abbeel
発行日 2023-08-23 17:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク