V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

要約

現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶことです。
このペーパーでは、インターネット規模のビデオデータと少量の相互作用データ(ロボットの軌跡)を組み合わせた自己監督のアプローチを調査し、物理的な世界で理解、予測、計画できるモデルを開発します。
最初に、100万時間以上のインターネットビデオで構成されるビデオおよび画像データセットに、アクションフリーの共同埋め込み予測予測アーキテクチャV-JEPA 2を事前にトレーニングします。
V-JEPA 2は、以前のタスク固有のモデルを上回る、動きの理解(77.3 TOP-1のV2のTOP-1精度)と最先端のパフォーマンス(Epic-Kitchens-100の39.7 Recall-5)を達成します。
さらに、V-JEPA 2を大きな言語モデルに合わせた後、80億パラメータースケールで複数のビデオ質問回答タスクで最先端のパフォーマンスを示します(例:PerceptionTestで84.0、Tempcompassで76.9)。
最後に、DROIDデータセットから62時間未満のラベルのないロボットビデオを使用して、潜在的なアクションコンディショニングされた世界モデルであるV-JEPA 2-ACをトレーニング後にトレーニング後にロボット計画タスクに自己監視学習を適用できるかを示します。
2つの異なるラボでFranka ArmsにV-JEPA 2-ACゼロショットを展開し、画像目標を使用して計画を使用してオブジェクトのピッキングと配置を有効にします。
特に、これは、これらの環境のロボットからデータを収集することなく、タスク固有のトレーニングや報酬なしで達成されます。
この作業は、Webスケールのデータと少量のロボット相互作用データからの自己監視の学習が、物理的な世界で計画できる世界モデルをどのように生成できるかを示しています。

要約(オリジナル)

A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data with a small amount of interaction data (robot trajectories), to develop models capable of understanding, predicting, and planning in the physical world. We first pre-train an action-free joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset comprising over 1 million hours of internet video. V-JEPA 2 achieves strong performance on motion understanding (77.3 top-1 accuracy on Something-Something v2) and state-of-the-art performance on human action anticipation (39.7 recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models. Additionally, after aligning V-JEPA 2 with a large language model, we demonstrate state-of-the-art performance on multiple video question-answering tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on TempCompass). Finally, we show how self-supervised learning can be applied to robotic planning tasks by post-training a latent action-conditioned world model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different labs and enable picking and placing of objects using planning with image goals. Notably, this is achieved without collecting any data from the robots in these environments, and without any task-specific training or reward. This work demonstrates how self-supervised learning from web-scale data and a small amount of robot interaction data can yield a world model capable of planning in the physical world.

arxiv情報

著者 Mido Assran,Adrien Bardes,David Fan,Quentin Garrido,Russell Howes,Mojtaba,Komeili,Matthew Muckley,Ammar Rizvi,Claire Roberts,Koustuv Sinha,Artem Zholus,Sergio Arnaud,Abha Gejji,Ada Martin,Francois Robert Hogan,Daniel Dugas,Piotr Bojanowski,Vasil Khalidov,Patrick Labatut,Francisco Massa,Marc Szafraniec,Kapil Krishnakumar,Yong Li,Xiaodong Ma,Sarath Chandar,Franziska Meier,Yann LeCun,Michael Rabbat,Nicolas Ballas
発行日 2025-06-11 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク