Humanoid Locomotion as Next Token Prediction

要約

私たちは、言語における次の単語を予測するのと同様に、現実世界のヒューマノイド制御を次のトークン予測問題としてキャストします。
私たちのモデルは、感覚運動軌跡の自己回帰予測によってトレーニングされた因果変換器です。
データのマルチモーダルな性質を考慮して、モダリティに合わせた方法で予測を実行し、入力トークンごとに同じモダリティからの次のトークンを予測します。
この一般的な定式化により、アクションのないビデオ軌跡など、モダリティが欠落しているデータを活用できるようになります。
以前のニューラル ネットワーク ポリシー、モデルベースのコントローラー、モーション キャプチャ データ、人間の YouTube 動画から得られるシミュレートされた軌跡のコレクションに基づいてモデルをトレーニングします。
このモデルにより、フルサイズのヒューマノイドがサンフランシスコをゼロショットで歩行できることを示します。
私たちのモデルは、わずか 27 時間の歩行データでトレーニングされた場合でも現実世界に移行でき、後ろ向きに歩くなど、トレーニング中には見ら​​れなかったコマンドにも一般化できます。
これらの発見は、感覚運動軌跡の生成モデリングによって困難な現実世界の制御タスクを学習するための有望な道を示唆しています。

要約(オリジナル)

We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.

arxiv情報

著者 Ilija Radosavovic,Bike Zhang,Baifeng Shi,Jathushan Rajasegaran,Sarthak Kamat,Trevor Darrell,Koushil Sreenath,Jitendra Malik
発行日 2024-02-29 18:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク