要約
我々は、ロボットが日常的なタスクを実行している、ラベル付けされていない、一人称の長い動画からスキルを学習することを可能にするフレームワーク、R+Xを紹介する。人間からの言語コマンドが与えられると、R+Xはまず関連する動作を含む短いビデオクリップを検索し、次にこの動作に文脈内模倣学習法(KAT)を条件付けることによってスキルを実行する。検索に視覚言語モデル(VLM)を活用することで、R+Xは動画の手動アノテーションを必要とせず、実行に文脈内学習を活用することで、ロボットは検索された動画で一定期間の訓練を必要とせず、命令されたスキルを即座に実行することができる。R+Xは、ラベル付けされていない人間の映像をロボットのスキルに変換することに成功し、R+Xが最近のいくつかの代替手法を凌駕していることが、日常的な家庭での様々なタスクを研究した実験により示されている。動画とコードはhttps://www.robot-learning.uk/r-plus-x。
要約(オリジナル)
We present R+X, a framework which enables robots to learn skills from long, unlabelled, first-person videos of humans performing everyday tasks. Given a language command from a human, R+X first retrieves short video clips containing relevant behaviour, and then executes the skill by conditioning an in-context imitation learning method (KAT) on this behaviour. By leveraging a Vision Language Model (VLM) for retrieval, R+X does not require any manual annotation of the videos, and by leveraging in-context learning for execution, robots can perform commanded skills immediately, without requiring a period of training on the retrieved videos. Experiments studying a range of everyday household tasks show that R+X succeeds at translating unlabelled human videos into robust robot skills, and that R+X outperforms several recent alternative methods. Videos and code are available at https://www.robot-learning.uk/r-plus-x.
arxiv情報
| 著者 | Georgios Papagiannis,Norman Di Palo,Pietro Vitiello,Edward Johns |
| 発行日 | 2025-04-03 10:12:23+00:00 |
| arxivサイト | arxiv_id(pdf) |