要約
最新のロボット学習方法の大部分は、新しいタスクに限られたまたは一般化されていない一連の定義されたタスクの学習に焦点を当てています。
ロボットスキルセットを新しいタスクに拡張するには、追加のタスクのための幅広いトレーニングデータを収集することが含まれます。
この論文では、繰り返しタスクのために人間のデモビデオ(パッキングなど)を使用して、ロボットに新しいタスクを教えるという問題に対処します。
このタスクでは、人間のビデオを理解して、どのオブジェクトが操作されているか(ピックオブジェクト)とそれが配置されている場所(配置スロット)を識別する必要があります。
さらに、タスクのロボット実行を可能にするために、推論中にピックオブジェクトと配置スロットを再識別する必要があります。
これに取り組むために、いくつかの高度な視覚基盤モデルと新しいスロットレベルの配置検出器スロットネットを活用するモジュラーシステムであるSlerpを提案し、トレーニング用の高価なビデオデモンストレーションの必要性を排除します。
実際のビデオの新しいベンチマークを使用して、システムを評価します。
評価結果は、Slerpがいくつかのベースラインを上回り、実際のロボットに展開できることを示しています。
要約(オリジナル)
The majority of modern robot learning methods focus on learning a set of pre-defined tasks with limited or no generalization to new tasks. Extending the robot skillset to novel tasks involves gathering an extensive amount of training data for additional tasks. In this paper, we address the problem of teaching new tasks to robots using human demonstration videos for repetitive tasks (e.g., packing). This task requires understanding the human video to identify which object is being manipulated (the pick object) and where it is being placed (the placement slot). In addition, it needs to re-identify the pick object and the placement slots during inference along with the relative poses to enable robot execution of the task. To tackle this, we propose SLeRP, a modular system that leverages several advanced visual foundation models and a novel slot-level placement detector Slot-Net, eliminating the need for expensive video demonstrations for training. We evaluate our system using a new benchmark of real-world videos. The evaluation results show that SLeRP outperforms several baselines and can be deployed on a real robot.
arxiv情報
著者 | Dandan Shan,Kaichun Mo,Wei Yang,Yu-Wei Chao,David Fouhey,Dieter Fox,Arsalan Mousavian |
発行日 | 2025-04-02 17:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google