R+X: Retrieval and Execution from Everyday Human Videos

要約

私たちが紹介する R+X は、人間が日常業務を遂行する長いラベルなしの一人称ビデオからロボットがスキルを学習できるようにするフレームワークです。
人間から言語コマンドが与えられると、R+X はまず関連する行動を含む短いビデオ クリップを取得し、次にこの行動に基づいてコンテキスト内の模倣学習メソッドを条件付けすることでスキルを実行します。
検索にビジョン言語モデル (VLM) を活用することで、R+X はビデオに手動で注釈を付ける必要がなく、実行にコンテキスト内学習を活用することで、ロボットは、一定期間のトレーニングを必要とせずに、命令されたスキルを即座に実行できます。
取得したビデオ。
日常のさまざまな家事を研究した実験では、R+X がラベルのない人間のビデオを堅牢なロボット スキルに変換することに成功し、R+X が最近のいくつかの代替手法よりも優れていることが示されています。
ビデオは https://www.robot-learning.uk/r-plus-x でご覧いただけます。

要約(オリジナル)

We present R+X, a framework which enables robots to learn skills from long, unlabelled, first-person videos of humans performing everyday tasks. Given a language command from a human, R+X first retrieves short video clips containing relevant behaviour, and then executes the skill by conditioning an in-context imitation learning method on this behaviour. By leveraging a Vision Language Model (VLM) for retrieval, R+X does not require any manual annotation of the videos, and by leveraging in-context learning for execution, robots can perform commanded skills immediately, without requiring a period of training on the retrieved videos. Experiments studying a range of everyday household tasks show that R+X succeeds at translating unlabelled human videos into robust robot skills, and that R+X outperforms several recent alternative methods. Videos are available at https://www.robot-learning.uk/r-plus-x.

arxiv情報

著者 Georgios Papagiannis,Norman Di Palo,Pietro Vitiello,Edward Johns
発行日 2024-07-17 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク