要約
テキストの指示に反応するAIモデルを構築することは、特に逐次的な意思決定タスクにおいて困難である。この研究では、STEVE-1と呼ばれるMinecraft用の命令調整済みビデオ事前訓練(VPT)モデルを紹介し、DALL-E 2で利用されたunCLIPアプローチが、命令に従う逐次意思決定エージェントの作成にも有効であることを実証する。STEVE-1は、MineCLIPの潜在空間内のコマンドに従うように事前学習されたVPTモデルを適応させ、次にテキストから潜在コードを予測する事前学習を行うという2つのステップで学習されます。これにより、自己教師による行動のクローニングと後知恵による再ラベル化を通じてVPTを微調整し、コストのかかる人間のテキスト注釈の必要性を回避することができます。VPTやMineCLIPのような事前学習済みモデルを活用し、テキスト条件付き画像生成のベストプラクティスを採用したSTEVE-1は、わずか60ドルの学習コストで、Minecraftの様々な短距離オープンエンドのテキストやビジュアル指示に従うことができます。STEVE-1は、マウスとキーボードによる低レベルの操作と生のピクセル入力で、マインクラフトのオープンエンドな指示に従うという新しい基準を設定し、これまでのベースラインを大きく上回った。プリトレーニング、分類器なしガイダンス、データスケーリングなど、下流の性能に重要な要素を強調する実験的証拠を提供します。モデルの重み、トレーニングスクリプト、評価ツールを含むすべてのリソースは、さらなる研究のために利用できるようになっています。
要約(オリジナル)
Constructing AI models that respond to text instructions is challenging, especially for sequential decision-making tasks. This work introduces an instruction-tuned Video Pretraining (VPT) model for Minecraft called STEVE-1, demonstrating that the unCLIP approach, utilized in DALL-E 2, is also effective for creating instruction-following sequential decision-making agents. STEVE-1 is trained in two steps: adapting the pretrained VPT model to follow commands in MineCLIP’s latent space, then training a prior to predict latent codes from text. This allows us to finetune VPT through self-supervised behavioral cloning and hindsight relabeling, bypassing the need for costly human text annotations. By leveraging pretrained models like VPT and MineCLIP and employing best practices from text-conditioned image generation, STEVE-1 costs just $60 to train and can follow a wide range of short-horizon open-ended text and visual instructions in Minecraft. STEVE-1 sets a new bar for open-ended instruction following in Minecraft with low-level controls (mouse and keyboard) and raw pixel inputs, far outperforming previous baselines. We provide experimental evidence highlighting key factors for downstream performance, including pretraining, classifier-free guidance, and data scaling. All resources, including our model weights, training scripts, and evaluation tools are made available for further research.
arxiv情報
| 著者 | Shalev Lifshitz,Keiran Paster,Harris Chan,Jimmy Ba,Sheila McIlraith |
| 発行日 | 2023-06-05 17:58:30+00:00 |
| arxivサイト | arxiv_id(pdf) |