Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

要約

ロボット工学の最近の進歩は、複数のタスクを実行できるジェネラリスト ポリシーの開発に焦点を当てています。
通常、これらのポリシーでは、事前にトレーニングされたビジョン エンコーダーを利用して、現在の観測から重要な情報を取得します。
ただし、2 つの画像の対比学習や 1 つの画像の再構成でトレーニングされた以前のビジョン エンコーダーは、具体化されたタスクに不可欠な連続情報を完全にキャプチャすることはできません。
最近、ビデオ拡散モデル (VDM) は、将来の画像シーケンスを正確に予測する機能を実証し、物理的な力学を十分に理解していることを示しています。
VDM の強力な視覚予測機能に動機付けられて、VDM は物理世界の進化を反映する視覚表現を本質的に備えていると仮説を立てます。これを予測視覚表現と呼びます。
この仮説に基づいて、我々は、VDM からの予測視覚表現を条件とする汎用的なロボット ポリシーであるビデオ予測ポリシー (VPP) を提案します。
これらの表現をさらに強化するために、統合されたビデオ生成トレーニング目標を採用して、多様な人間またはロボットの操作データセットを組み込みます。
VPP は、2 つのシミュレートされたベンチマークと 2 つの現実世界のベンチマークにわたって、既存の手法を常に上回っています。
特に、以前の最先端技術と比較して、Calvin ABC-D ベンチマークで 28.1\% の相対的な向上を達成し、複雑な現実世界の器用な操作タスクの成功率が 28.8\% 増加しました。

要約(オリジナル)

Recent advancements in robotics have focused on developing generalist policies capable of performing multiple tasks. Typically, these policies utilize pre-trained vision encoders to capture crucial information from current observations. However, previous vision encoders, which trained on two-image contrastive learning or single-image reconstruction, can not perfectly capture the sequential information essential for embodied tasks. Recently, video diffusion models (VDMs) have demonstrated the capability to accurately predict future image sequences, exhibiting a good understanding of physical dynamics. Motivated by the strong visual prediction capabilities of VDMs, we hypothesize that they inherently possess visual representations that reflect the evolution of the physical world, which we term predictive visual representations. Building on this hypothesis, we propose the Video Prediction Policy (VPP), a generalist robotic policy conditioned on the predictive visual representations from VDMs. To further enhance these representations, we incorporate diverse human or robotic manipulation datasets, employing unified video-generation training objectives. VPP consistently outperforms existing methods across two simulated and two real-world benchmarks. Notably, it achieves a 28.1\% relative improvement in the Calvin ABC-D benchmark compared to the previous state-of-the-art and delivers a 28.8\% increase in success rates for complex real-world dexterous manipulation tasks.

arxiv情報

著者 Yucheng Hu,Yanjiang Guo,Pengchao Wang,Xiaoyu Chen,Yen-Jen Wang,Jianke Zhang,Koushil Sreenath,Chaochao Lu,Jianyu Chen
発行日 2024-12-19 12:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク