Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

要約

アクションとビデオのダイナミクスをモデリングするための不均一なマスク自己網膜(HMA)を提案して、ロボット学習のスケーリングで高品質のデータと評価を生成します。
インタラクティブなビデオの世界モデルとロボット工学のポリシーを構築することは、多様な設定を処理するという課題により、計算効率をリアルタイムで実行することが困難です。
HMAは、さまざまなロボットの実施形態、ドメイン、およびタスクにわたる観測および作用シーケンスからの不均一なトレーニングを使用します。
HMAは、マスクされた自己網羅を使用して、ビデオ予測のために量子化されたトークンまたはソフトトークンを生成します。
\ Ourshortは、現実の世界で15倍高速な速度を備えた、以前のロボットビデオ生成モデルよりも優れた視覚的忠実度と制御性を実現します。
トレーニング後の後、このモデルは、ポリシーを評価し、合成データを生成するための低レベルアクション入力のビデオシミュレーターとして使用できます。
詳細については、このリンクhttps://liruiw.github.io/hmaを参照してください。

要約(オリジナル)

We propose Heterogeneous Masked Autoregression (HMA) for modeling action-video dynamics to generate high-quality data and evaluation in scaling robot learning. Building interactive video world models and policies for robotics is difficult due to the challenge of handling diverse settings while maintaining computational efficiency to run in real time. HMA uses heterogeneous pre-training from observations and action sequences across different robotic embodiments, domains, and tasks. HMA uses masked autoregression to generate quantized or soft tokens for video predictions. \ourshort achieves better visual fidelity and controllability than the previous robotic video generation models with 15 times faster speed in the real world. After post-training, this model can be used as a video simulator from low-level action inputs for evaluating policies and generating synthetic data. See this link https://liruiw.github.io/hma for more information.

arxiv情報

著者 Lirui Wang,Kevin Zhao,Chaoqi Liu,Xinlei Chen
発行日 2025-02-06 18:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク