要約
操作における主な課題は、多様な視覚環境に堅牢に一般化できるポリシーを学習することです。
堅牢なポリシーを学習するための有望なメカニズムは、インターネット ビデオの大規模なデータセットで事前トレーニングされたビデオ生成モデルを活用することです。
この論文では、人間による特定のタスクのデモンストレーションに基づいてビデオ拡散モデルを微調整する視覚運動ポリシー学習フレームワークを提案します。
テスト時に、新しいシーンの画像を条件としたタスクの実行例を生成し、この合成された実行を直接使用してロボットを制御します。
私たちの重要な洞察は、共通のツールを使用することで、人間の手とロボットマニピュレーターの間の具現化のギャップを簡単に埋めることができるということです。
私たちは、複雑さが増大する 4 つのタスクに対するアプローチを評価し、インターネット スケールの生成モデルを利用することで、学習されたポリシーが既存の動作クローニング アプローチよりも大幅に高度な一般化を達成できることを実証します。
要約(オリジナル)
A key challenge in manipulation is learning a policy that can robustly generalize to diverse visual environments. A promising mechanism for learning robust policies is to leverage video generative models, which are pretrained on large-scale datasets of internet videos. In this paper, we propose a visuomotor policy learning framework that fine-tunes a video diffusion model on human demonstrations of a given task. At test time, we generate an example of an execution of the task conditioned on images of a novel scene, and use this synthesized execution directly to control the robot. Our key insight is that using common tools allows us to effortlessly bridge the embodiment gap between the human hand and the robot manipulator. We evaluate our approach on four tasks of increasing complexity and demonstrate that harnessing internet-scale generative models allows the learned policy to achieve a significantly higher degree of generalization than existing behavior cloning approaches.
arxiv情報
著者 | Junbang Liang,Ruoshi Liu,Ege Ozguroglu,Sruthi Sudhakar,Achal Dave,Pavel Tokmakov,Shuran Song,Carl Vondrick |
発行日 | 2024-06-24 17:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google