要約
ビデオ生成モデルの学習に大規模ビデオ データを利用する最近の進歩は、複雑な物理ダイナミクスを理解する上で大きな可能性を示しています。
これは、多様なロボットの軌道データを活用して、ロボットの操作を強化するための統合されたダイナミクスを意識したモデルを開発する実現可能性を示唆しています。
ただし、利用可能なロボット データの量が比較的少ないことを考えると、視覚的な観察と動作の関係を考慮せずにデータを直接当てはめると、データの利用が最適化されていない可能性があります。
この目的を達成するために、神経科学の二重プロセス理論に触発された 2 段階のトレーニング メカニズムを採用し、安定性を高め、データ利用効率を向上させる新しいフレームワークである VidMan (Video Diffusion for Robot Manipulation) を提案します。
具体的には、第 1 段階では、VidMan はビデオのノイズ除去拡散方式で将来の視覚軌跡を予測するために Open X-Embodiment データセット (OXE) で事前トレーニングされており、モデルが環境のダイナミクスを水平方向に長く認識できるようになります。
第 2 段階では、柔軟かつ効果的なレイヤーごとのセルフ アテンション アダプターが導入され、VidMan を効率的な逆ダイナミクス モデルに変換します。このモデルは、パラメータ共有を介して暗黙的なダイナミクス知識によって変調されるアクションを予測します。
当社の VidMan フレームワークは、CALVIN ベンチマークで最先端のベースライン モデル GR-1 を上回り、11.7% の相対的な向上を達成し、OXE 小規模データセットで 9% 以上の精度向上を示しています。
これらの結果は、世界モデルがロボットの動作予測の精度を大幅に向上できるという説得力のある証拠を提供します。
コードとモデルは公開されます。
要約(オリジナル)
Recent advancements utilizing large-scale video data for learning video generation models demonstrate significant potential in understanding complex physical dynamics. It suggests the feasibility of leveraging diverse robot trajectory data to develop a unified, dynamics-aware model to enhance robot manipulation. However, given the relatively small amount of available robot data, directly fitting data without considering the relationship between visual observations and actions could lead to suboptimal data utilization. To this end, we propose VidMan (Video Diffusion for Robot Manipulation), a novel framework that employs a two-stage training mechanism inspired by dual-process theory from neuroscience to enhance stability and improve data utilization efficiency. Specifically, in the first stage, VidMan is pre-trained on the Open X-Embodiment dataset (OXE) for predicting future visual trajectories in a video denoising diffusion manner, enabling the model to develop a long horizontal awareness of the environment’s dynamics. In the second stage, a flexible yet effective layer-wise self-attention adapter is introduced to transform VidMan into an efficient inverse dynamics model that predicts action modulated by the implicit dynamics knowledge via parameter sharing. Our VidMan framework outperforms state-of-the-art baseline model GR-1 on the CALVIN benchmark, achieving a 11.7% relative improvement, and demonstrates over 9% precision gains on the OXE small-scale dataset. These results provide compelling evidence that world models can significantly enhance the precision of robot action prediction. Codes and models will be public.
arxiv情報
著者 | Youpeng Wen,Junfan Lin,Yi Zhu,Jianhua Han,Hang Xu,Shen Zhao,Xiaodan Liang |
発行日 | 2024-11-14 03:13:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google