要約
スキル学習の最近の進歩により、ロボット操作は、実際の数のデモンストレーションから複雑な操作タスクを学習できるようにすることで、新たな高みへの操作を推進しています。
ただし、これらのスキルは、トレーニングデータに表示されている特定のアクション、オブジェクト、および環境\ TextIT {インスタンス}に限定され、同じカテゴリの他のインスタンスへの移行に問題があることがよくあります。
この作業では、インスタンスレベルのトレーニングデータからカテゴリレベルのインスタンスレベルへの一般化を可能にするオープンボキャブラリー空間セマンティック拡散ポリシー(S $^2 $ -diffusion)を提示します。
スキルの機能的側面は、空間表現と組み合わせた迅速なセマンティックモジュールを介してキャプチャできることを示します。
さらに、深度推定ネットワークを活用して、単一のRGBカメラのみを使用できるようにすることを提案します。
私たちのアプローチは、シミュレーションと現実世界の両方で、さまざまな数のロボット操作タスクで評価され、比較されます。
我々の結果は、S $^2 $ -diffusionが、カテゴリに照明された要因の変化に不変であり、特定の例で訓練されていなくても、同じカテゴリ内の他のインスタンスでパフォーマンスを満たすことができることを示しています。
すべての現実世界の実験の完全なビデオは、補足資料で入手できます。
要約(オリジナル)
Recent advances in skill learning has propelled robot manipulation to new heights by enabling it to learn complex manipulation tasks from a practical number of demonstrations. However, these skills are often limited to the particular action, object, and environment \textit{instances} that are shown in the training data, and have trouble transferring to other instances of the same category. In this work we present an open-vocabulary Spatial-Semantic Diffusion policy (S$^2$-Diffusion) which enables generalization from instance-level training data to category-level, enabling skills to be transferable between instances of the same category. We show that functional aspects of skills can be captured via a promptable semantic module combined with a spatial representation. We further propose leveraging depth estimation networks to allow the use of only a single RGB camera. Our approach is evaluated and compared on a diverse number of robot manipulation tasks, both in simulation and in the real world. Our results show that S$^2$-Diffusion is invariant to changes in category-irrelevant factors as well as enables satisfying performance on other instances within the same category, even if it was not trained on that specific instance. Full videos of all real-world experiments are available in the supplementary material.
arxiv情報
著者 | Quantao Yang,Michael C. Welle,Danica Kragic,Olov Andersson |
発行日 | 2025-02-13 15:06:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google