要約
統一されたビデオとアクションモデルは、動画がアクション予測のための豊富なシーン情報を提供し、アクションがビデオ予測のダイナミクス情報を提供するロボット工学に大きな約束を保持しています。
ただし、ビデオ生成とアクションの予測を効果的に組み合わせることは依然として挑戦的であり、現在のビデオ生成ベースの方法は、アクションの正確性と推論速度における直接政策学習のパフォーマンスに合わせるのに苦労しています。
このギャップを埋めるために、統一されたビデオアクションモデル(UVA)を導入します。これは、ビデオとアクションの予測を共同で最適化して、高精度と効率的なアクション推論の両方を実現します。
重要なのは、共同ビデオアクションの潜在的な表現を学び、ビデオアクションデコードを切り離すことにあります。
共同潜在表現は、視覚およびアクションドメインを橋渡しし、ビデオとアクションシーケンスの関係を効果的にモデル化します。
一方、2つの軽量拡散ヘッドを搭載した分離されたデコードにより、推論中にビデオ生成をバイパスすることにより、高速アクション推論が可能になります。
このような統一されたフレームワークは、マスクされた入力トレーニングを通じて汎用性の高い機能をさらに可能にします。
アクションやビデオを選択的にマスキングすることにより、単一のモデルは、フォワードダイナミクスモデリングやビデオ生成など、ポリシー学習を超えて多様なタスクに取り組むことができます。
広範な一連の実験を介して、UVAが、特定のアプリケーションに合わせた方法と比較してパフォーマンスを損なうことなく、ポリシー学習、フォワード/逆ダイナミクス、ビデオ観測予測などの幅広いロボットタスクの汎用ソリューションとして機能できることを実証します。
結果は、https://unifided-video-chract-model.github.io/で最もよく表示されます。
要約(オリジナル)
A unified video and action model holds significant promise for robotics, where videos provide rich scene information for action prediction, and actions provide dynamics information for video prediction. However, effectively combining video generation and action prediction remains challenging, and current video generation-based methods struggle to match the performance of direct policy learning in action accuracy and inference speed. To bridge this gap, we introduce the Unified Video Action model (UVA), which jointly optimizes video and action predictions to achieve both high accuracy and efficient action inference. The key lies in learning a joint video-action latent representation and decoupling video-action decoding. The joint latent representation bridges the visual and action domains, effectively modeling the relationship between video and action sequences. Meanwhile, the decoupled decoding, powered by two lightweight diffusion heads, enables high-speed action inference by bypassing video generation during inference. Such a unified framework further enables versatile functionality through masked input training. By selectively masking actions or videos, a single model can tackle diverse tasks beyond policy learning, such as forward and inverse dynamics modeling and video generation. Via an extensive set of experiments, we demonstrate that UVA can serve as a general-purpose solution for a wide range of robotics tasks, such as policy learning, forward/inverse dynamics and video observation prediction, without compromising performance compared to methods tailored for specific applications. Results are best viewed on https://unified-video-action-model.github.io/.
arxiv情報
著者 | Shuang Li,Yihuai Gao,Dorsa Sadigh,Shuran Song |
発行日 | 2025-03-04 08:26:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google