要約
過去の観察と運動コマンドを条件とする将来の視覚的観察を予測する能力は、具体化されたエージェントが複雑な環境でのさまざまなタスクの解決策を計画することを可能にします。
この作業は、マスクされたビジュアルモデリングを介してトランスフォーマーを事前トレーニングすることにより、優れたビデオ予測モデルを作成できることを示しています。
MaskViTという名前の私たちのアプローチは、2つの単純な設計上の決定に基づいています。
まず、記憶とトレーニングの効率のために、2種類のウィンドウ注意を使用します。空間的および時空間的です。
次に、トレーニング中に、固定のマスク比率ではなく、可変の割合のトークンをマスクします。
推論のために、MaskViTは、マスクスケジューリング関数に続いてマスキング率を段階的に減少させる反復的な改良を介してすべてのトークンを生成します。
いくつかのデータセットで、MaskViTがビデオ予測の以前の作業よりも優れており、パラメーター効率が高く、高解像度ビデオ(256×256)を生成できることを示しています。
さらに、実際のロボットの計画にMaskViTを使用することにより、反復デコードによる推論の高速化(最大512倍)の利点を示します。
私たちの仕事は、最小限のドメイン知識でマスクされたビジュアルモデリングの一般的なフレームワークを活用することにより、具体化されたエージェントに強力な予測モデルを与えることができることを示唆しています。
要約(オリジナル)
The ability to predict future visual observations conditioned on past observations and motor commands can enable embodied agents to plan solutions to a variety of tasks in complex environments. This work shows that we can create good video prediction models by pre-training transformers via masked visual modeling. Our approach, named MaskViT, is based on two simple design decisions. First, for memory and training efficiency, we use two types of window attention: spatial and spatiotemporal. Second, during training, we mask a variable percentage of tokens instead of a fixed mask ratio. For inference, MaskViT generates all tokens via iterative refinement where we incrementally decrease the masking ratio following a mask scheduling function. On several datasets we demonstrate that MaskViT outperforms prior works in video prediction, is parameter efficient, and can generate high-resolution videos (256×256). Further, we demonstrate the benefits of inference speedup (up to 512x) due to iterative decoding by using MaskViT for planning on a real robot. Our work suggests that we can endow embodied agents with powerful predictive models by leveraging the general framework of masked visual modeling with minimal domain knowledge.
arxiv情報
著者 | Agrim Gupta,Stephen Tian,Yunzhi Zhang,Jiajun Wu,Roberto Martín-Martín,Li Fei-Fei |
発行日 | 2022-06-23 17:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google