要約
最近のロボット学習方法は、一般に、テレオ操作で収集された大規模なロボットデータセットからの模倣学習に依存しています。
新しいタスクに直面する場合、そのような方法は一般に、一連の新しいテレオ操作データを収集し、ポリシーを微調整する必要があります。
さらに、テレオ操作データ収集パイプラインも退屈で高価です。
代わりに、人間は他の人がするのを見るだけで新しいタスクを効率的に学ぶことができます。
この論文では、一般化可能なロボットポリシーを学ぶために人間のデモを利用する新しい2段階のフレームワークを紹介します。
このようなポリシーは、人間のデモビデオをプロンプトとして直接撮影し、新しいテレオ操作データなしで新しいタスクを実行し、まったく微調整することができます。
最初の段階では、相互予測を使用して人間とロボットのデモンストレーションビデオデータの共同表現をキャプチャするビデオ生成モデルをトレーニングします。
第2段階では、学習した表現を、新しいプロトタイプのコントラスト損失を使用して、人間とロボットの間の共有アクション空間と融合します。
実世界の器用な操作タスクに関する経験的評価は、提案された方法の有効性と一般化能力を示しています。
要約(オリジナル)
Recent robot learning methods commonly rely on imitation learning from massive robotic dataset collected with teleoperation. When facing a new task, such methods generally require collecting a set of new teleoperation data and finetuning the policy. Furthermore, the teleoperation data collection pipeline is also tedious and expensive. Instead, human is able to efficiently learn new tasks by just watching others do. In this paper, we introduce a novel two-stage framework that utilizes human demonstrations to learn a generalizable robot policy. Such policy can directly take human demonstration video as a prompt and perform new tasks without any new teleoperation data and model finetuning at all. In the first stage, we train video generation model that captures a joint representation for both the human and robot demonstration video data using cross-prediction. In the second stage, we fuse the learned representation with a shared action space between human and robot using a novel prototypical contrastive loss. Empirical evaluations on real-world dexterous manipulation tasks show the effectiveness and generalization capabilities of our proposed method.
arxiv情報
著者 | Xiang Zhu,Yichen Liu,Hezhong Li,Jianyu Chen |
発行日 | 2025-05-27 06:56:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google