要約
テキストの指示に応答する AI モデルの構築は、特に連続的な意思決定タスクの場合には困難です。
この研究では、STEVE-1 と呼ばれる Minecraft 用の命令調整ビデオ事前トレーニング (VPT) モデルを導入し、DALL-E 2 で利用されている unCLIP アプローチが命令に従う逐次意思決定エージェントの作成にも効果的であることを実証しています。
STEVE-1 は 2 つのステップでトレーニングされます。1 つは、事前トレーニングされた VPT モデルを MineCLIP の潜在空間内のコマンドに従うように適応させ、次にテキストから潜在コードを予測するために事前トレーニングを行うことです。
これにより、自己監視型の動作クローン作成と後からの再ラベル付けを通じて VPT を微調整することができ、コストのかかる人間によるテキスト注釈の必要性が回避されます。
VPT や MineCLIP などの事前トレーニング済みモデルを活用し、テキスト条件付き画像生成のベスト プラクティスを採用することで、STEVE-1 のトレーニング費用はわずか 60 ドルで、Minecraft の幅広い短い水平線のオープンエンドのテキストと視覚的な指示に従うことができます。
STEVE-1 は、低レベルのコントロール (マウスとキーボード) と生のピクセル入力を使用して、Minecraft に続くオープンエンドの命令の新たな基準を設定し、以前のベースラインをはるかに上回りました。
私たちは、事前トレーニング、分類子を使用しないガイダンス、データ スケーリングなど、下流のパフォーマンスの重要な要素を強調する実験的証拠を提供します。
モデルの重み、トレーニング スクリプト、評価ツールを含むすべてのリソースは、さらなる研究に利用できます。
要約(オリジナル)
Constructing AI models that respond to text instructions is challenging, especially for sequential decision-making tasks. This work introduces an instruction-tuned Video Pretraining (VPT) model for Minecraft called STEVE-1, demonstrating that the unCLIP approach, utilized in DALL-E 2, is also effective for creating instruction-following sequential decision-making agents. STEVE-1 is trained in two steps: adapting the pretrained VPT model to follow commands in MineCLIP’s latent space, then training a prior to predict latent codes from text. This allows us to finetune VPT through self-supervised behavioral cloning and hindsight relabeling, bypassing the need for costly human text annotations. By leveraging pretrained models like VPT and MineCLIP and employing best practices from text-conditioned image generation, STEVE-1 costs just $60 to train and can follow a wide range of short-horizon open-ended text and visual instructions in Minecraft. STEVE-1 sets a new bar for open-ended instruction following in Minecraft with low-level controls (mouse and keyboard) and raw pixel inputs, far outperforming previous baselines. We provide experimental evidence highlighting key factors for downstream performance, including pretraining, classifier-free guidance, and data scaling. All resources, including our model weights, training scripts, and evaluation tools are made available for further research.
arxiv情報
著者 | Shalev Lifshitz,Keiran Paster,Harris Chan,Jimmy Ba,Sheila McIlraith |
発行日 | 2023-06-01 17:39:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google