要約
デモンストレーションから学習することは、ロボットに新しいスキルを教えるための強力な方法であり、より多くのデモンストレーション データがあれば、ポリシーの学習が向上することがよくあります。
ただし、実証データの収集にかかるコストが高いことが大きなボトルネックとなっています。
豊富なデータ ソースとしてのビデオには、動作、物理学、セマンティクスに関する知識が含まれていますが、アクション ラベルがないため、そこからコントロール固有の情報を抽出するのは困難です。
この研究では、ビデオ フレーム内の任意の点の将来の軌道を予測する軌道モデルを事前トレーニングすることでビデオ デモンストレーションを利用する、新しいフレームワークである任意点軌道モデリング (ATM) を紹介します。
トレーニングが完了すると、これらの軌道は詳細な制御ガイダンスを提供し、最小限のアクションラベル付きデータで堅牢な視覚運動ポリシーの学習を可能にします。
シミュレーションと現実世界の両方で評価した 130 以上の言語条件付きタスク全体で、ATM は強力なビデオ事前トレーニング ベースラインを平均 80% 上回りました。
さらに、人間のビデオと異なるロボット形態のビデオからの操作スキルの効果的な転移学習を示します。
ビジュアライゼーションとコードは \url{https://xingyu-lin.github.io/atm} から入手できます。
要約(オリジナル)
Learning from demonstration is a powerful method for teaching robots new skills, and having more demonstration data often improves policy learning. However, the high cost of collecting demonstration data is a significant bottleneck. Videos, as a rich data source, contain knowledge of behaviors, physics, and semantics, but extracting control-specific information from them is challenging due to the lack of action labels. In this work, we introduce a novel framework, Any-point Trajectory Modeling (ATM), that utilizes video demonstrations by pre-training a trajectory model to predict future trajectories of arbitrary points within a video frame. Once trained, these trajectories provide detailed control guidance, enabling the learning of robust visuomotor policies with minimal action-labeled data. Across over 130 language-conditioned tasks we evaluated in both simulation and the real world, ATM outperforms strong video pre-training baselines by 80% on average. Furthermore, we show effective transfer learning of manipulation skills from human videos and videos from a different robot morphology. Visualizations and code are available at: \url{https://xingyu-lin.github.io/atm}.
arxiv情報
著者 | Chuan Wen,Xingyu Lin,John So,Kai Chen,Qi Dou,Yang Gao,Pieter Abbeel |
発行日 | 2024-02-16 06:55:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google