要約
ロボット工学のアクション標識データは不足して高価であり、学習ポリシーの一般化を制限しています。
対照的に、膨大な量のアクションフリーのビデオデータはすぐに利用できますが、これらの観察を効果的なポリシーに変換することは依然として課題です。
視覚的ダイナミクスをキーポイント軌道から派生したコンパクトで個別のモーショントークンにエンコードすることにより、大規模なビデオデータを活用する新しいフレームワークであるAmplifyを紹介します。
モジュラーアプローチは、視覚的なモーション予測とアクション推論から分離され、ロボットの実行方法からタスクを定義するモーションを学習する課題を分離します。
豊富なアクションのないビデオと、限られた一連のアクション標識例で逆ダイナミクスモデルでフォワードダイナミクスモデルをトレーニングし、独立したスケーリングを可能にします。
広範な評価は、学習したダイナミクスの両方が正確であり、最大3.7倍のMSEの優れたMSEと2.5倍の優れたピクセル予測の精度を達成し、以前のアプローチと比較して達成し、非常に有用であることを示しています。
ダウンストリームポリシー学習では、ダイナミクスの予測により、低データレジームの1.2〜2.2倍の改善、アクションフリーの人間のビデオから学習することにより、平均1.4倍の改善、およびゼロ分配アクションデータからのリベロタスクへの最初の一般化が可能になります。
ロボット制御を超えて、Amplifyによって学習されたダイナミクスは、多用途の潜在的な世界モデルであることがわかり、ビデオ予測の品質を高めています。
私たちの結果は、不均一なデータソースを活用する新しいパラダイムを提示して、効率的で一般化可能な世界モデルを構築します。
詳細については、https://amplify-robotics.github.io/をご覧ください。
要約(オリジナル)
Action-labeled data for robotics is scarce and expensive, limiting the generalization of learned policies. In contrast, vast amounts of action-free video data are readily available, but translating these observations into effective policies remains a challenge. We introduce AMPLIFY, a novel framework that leverages large-scale video data by encoding visual dynamics into compact, discrete motion tokens derived from keypoint trajectories. Our modular approach separates visual motion prediction from action inference, decoupling the challenges of learning what motion defines a task from how robots can perform it. We train a forward dynamics model on abundant action-free videos and an inverse dynamics model on a limited set of action-labeled examples, allowing for independent scaling. Extensive evaluations demonstrate that the learned dynamics are both accurate, achieving up to 3.7x better MSE and over 2.5x better pixel prediction accuracy compared to prior approaches, and broadly useful. In downstream policy learning, our dynamics predictions enable a 1.2-2.2x improvement in low-data regimes, a 1.4x average improvement by learning from action-free human videos, and the first generalization to LIBERO tasks from zero in-distribution action data. Beyond robotic control, we find the dynamics learned by AMPLIFY to be a versatile latent world model, enhancing video prediction quality. Our results present a novel paradigm leveraging heterogeneous data sources to build efficient, generalizable world models. More information can be found at https://amplify-robotics.github.io/.
arxiv情報
著者 | Jeremy A. Collins,Loránd Cheng,Kunal Aneja,Albert Wilcox,Benjamin Joffe,Animesh Garg |
発行日 | 2025-06-17 05:31:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google