要約
強化学習 (RL) では、報酬関数を手動で指定するか (多くの場合実行不可能)、または人間の大量のフィードバックから報酬モデルを学習する必要があります (多くの場合非常にコストがかかります)。
私たちは、よりサンプル効率の高い代替案を研究しています。それは、事前トレーニング済みのビジョン言語モデル (VLM) をゼロショット報酬モデル (RM) として使用し、自然言語を介してタスクを指定するというものです。
私たちは、VLM を報酬モデルとして使用するための自然かつ一般的なアプローチを提案します。これを VLM-RM と呼びます。
私たちは、CLIP に基づく VLM-RM を使用して、ひざまずく、開股をする、蓮華座に座るなど、手動で指定した報酬関数なしで複雑なタスクを学習する MuJoCo ヒューマノイドをトレーニングします。
これらの各タスクについては、最小限のプロンプト エンジニアリングで目的のタスクを説明する 1 文のテキスト プロンプトのみが提供されます。
トレーニングを受けたエージェントのビデオを https://sites.google.com/view/vlm-rm で提供しています。
2 番目の「ベースライン」プロンプトを提供し、目標とベースラインの区別に無関係な CLIP 埋め込みスペースの部分を投影することで、パフォーマンスを向上させることができます。
さらに、VLM-RM には強力なスケーリング効果があることがわかりました。より多くのコンピューティングとデータでトレーニングされた大規模な VLM は、より優れた報酬モデルになります。
私たちが遭遇した VLM-RM の障害モードはすべて、空間推論能力の制限や、VLM の分布から遠く離れた視覚的に非現実的な環境など、現在の VLM の既知の機能制限に関連しています。
VLM が十分に大きい限り、VLM-RM は非常に堅牢であることがわかりました。
これは、将来の VLM が幅広い RL アプリケーションにとってますます有用な報酬モデルになることを示唆しています。
要約(オリジナル)
Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second “baseline” prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.
arxiv情報
著者 | Juan Rocamonde,Victoriano Montesinos,Elvis Nava,Ethan Perez,David Lindner |
発行日 | 2023-10-19 17:17:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google