Vision-Language Models Provide Promptable Representations for Reinforcement Learning

要約

人間は背景世界の知識を活用することで、新しい行動を素早く学習できます。
対照的に、強化学習 (RL) でトレーニングされたエージェントは通常、動作をゼロから学習します。
したがって、私たちは、身体化された RL のためにインターネット規模のデータで事前トレーニングされたビジョン言語モデル (VLM) にエンコードされた、大量の一般的でインデックス可能な世界知識を使用する新しいアプローチを提案します。
VLM をプロンプト可能な表現として使用することで、VLM でポリシーを初期化します。これは、視覚的な観察に基づいた埋め込みであり、タスクのコンテキストと補助情報を提供するプロンプトを通じて引き出される VLM の内部知識に基づいてセマンティックな特徴をエンコードします。
Minecraft の視覚的に複雑で長期的な RL タスクと Habitat のロボット ナビゲーションに対するアプローチを評価します。
汎用 VLM から抽出されたエンベディングでトレーニングされたポリシーは、一般的なプロンプト不可能な画像エンベディングでトレーニングされた同等のポリシーよりも優れていることがわかりました。
また、私たちのアプローチは命令に従う方法よりも優れており、ドメイン固有の埋め込みと同等のパフォーマンスを発揮することもわかりました。

要約(オリジナル)

Humans can quickly learn new behaviors by leveraging background world knowledge. In contrast, agents trained with reinforcement learning (RL) typically learn behaviors from scratch. We thus propose a novel approach that uses the vast amounts of general and indexable world knowledge encoded in vision-language models (VLMs) pre-trained on Internet-scale data for embodied RL. We initialize policies with VLMs by using them as promptable representations: embeddings that are grounded in visual observations and encode semantic features based on the VLM’s internal knowledge, as elicited through prompts that provide task context and auxiliary information. We evaluate our approach on visually-complex, long horizon RL tasks in Minecraft and robot navigation in Habitat. We find that our policies trained on embeddings extracted from general-purpose VLMs outperform equivalent policies trained on generic, non-promptable image embeddings. We also find our approach outperforms instruction-following methods and performs comparably to domain-specific embeddings.

arxiv情報

著者 William Chen,Oier Mees,Aviral Kumar,Sergey Levine
発行日 2024-02-13 17:51:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク