STEVE-1: A Generative Model for Text-to-Behavior in Minecraft

要約

テキストの指示に応答する AI モデルの構築は、特に連続的な意思決定タスクの場合には困難です。
この研究では、STEVE-1 と呼ばれる Minecraft 用の命令調整ビデオ事前トレーニング (VPT) モデルを導入し、DALL-E 2 で利用されている unCLIP アプローチが命令に従う逐次意思決定エージェントの作成にも効果的であることを実証しています。
STEVE-1 は 2 つのステップでトレーニングされます。1 つは、事前トレーニングされた VPT モデルを MineCLIP の潜在空間内のコマンドに従うように適応させ、次にテキストから潜在コードを予測するために事前トレーニングを行うことです。
これにより、自己監視型の動作クローン作成と後からの再ラベル付けを通じて VPT を微調整することができ、コストのかかる人間によるテキスト注釈の必要性が回避されます。
VPT や MineCLIP などの事前トレーニング済みモデルを活用し、テキスト条件付き画像生成のベスト プラクティスを採用することで、STEVE-1 のトレーニング費用はわずか 60 ドルで、Minecraft の幅広い短い水平線のオープンエンドのテキストと視覚的な指示に従うことができます。
STEVE-1 は、低レベルのコントロール (マウスとキーボード) と生のピクセル入力を使用して、Minecraft に続くオープンエンドの命令の新たな基準を設定し、以前のベースラインをはるかに上回りました。
私たちは、事前トレーニング、分類子を使用しないガイダンス、データ スケーリングなど、下流のパフォーマンスの重要な要素を強調する実験的証拠を提供します。
モデルの重み、トレーニング スクリプト、評価ツールを含むすべてのリソースは、さらなる研究に利用できます。

要約(オリジナル)

Constructing AI models that respond to text instructions is challenging, especially for sequential decision-making tasks. This work introduces an instruction-tuned Video Pretraining (VPT) model for Minecraft called STEVE-1, demonstrating that the unCLIP approach, utilized in DALL-E 2, is also effective for creating instruction-following sequential decision-making agents. STEVE-1 is trained in two steps: adapting the pretrained VPT model to follow commands in MineCLIP’s latent space, then training a prior to predict latent codes from text. This allows us to finetune VPT through self-supervised behavioral cloning and hindsight relabeling, bypassing the need for costly human text annotations. By leveraging pretrained models like VPT and MineCLIP and employing best practices from text-conditioned image generation, STEVE-1 costs just $60 to train and can follow a wide range of short-horizon open-ended text and visual instructions in Minecraft. STEVE-1 sets a new bar for open-ended instruction following in Minecraft with low-level controls (mouse and keyboard) and raw pixel inputs, far outperforming previous baselines. We provide experimental evidence highlighting key factors for downstream performance, including pretraining, classifier-free guidance, and data scaling. All resources, including our model weights, training scripts, and evaluation tools are made available for further research.

arxiv情報

著者 Shalev Lifshitz,Keiran Paster,Harris Chan,Jimmy Ba,Sheila McIlraith
発行日 2023-06-01 17:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク