要約
新しいスキルを習得するための現在のロボット学習アルゴリズムは、デモンストレーション データセットや環境との相互作用に依存することが多く、その結果、人件費が高くつき、安全上のリスクが生じる可能性があります。
これらの課題に対処するために、この研究では、ロボットが自然言語の指示から新しいスキルを習得できるようにするスキル学習フレームワークを提案します。
提案されたパイプラインは、視覚言語モデルを活用して新しいスキルのデモンストレーション ビデオを生成し、逆ダイナミクス モデルによって処理されて、ラベルのないデモンストレーションからアクションを抽出します。
これらの行動はその後、模倣学習を通じて環境コンテキストにマッピングされ、ロボットが新しいスキルを効果的に学習できるようになります。
MetaWorld シミュレーション環境での実験評価では、忠実度が高く信頼性の高いデモンストレーションを生成するパイプラインの機能が実証されています。
生成されたデモンストレーションを使用すると、さまざまなスキル学習アルゴリズムが新しいタスクでオリジナルの 3 倍の達成率を達成します。
これらの結果は、ロボット学習への新しいアプローチを強調し、新しいロボットスキルの直観的かつインテリジェントな習得の基盤を提供します。
要約(オリジナル)
Current robot learning algorithms for acquiring novel skills often rely on demonstration datasets or environment interactions, resulting in high labor costs and potential safety risks. To address these challenges, this study proposes a skill-learning framework that enables robots to acquire novel skills from natural language instructions. The proposed pipeline leverages vision-language models to generate demonstration videos of novel skills, which are processed by an inverse dynamics model to extract actions from the unlabeled demonstrations. These actions are subsequently mapped to environmental contexts via imitation learning, enabling robots to learn new skills effectively. Experimental evaluations in the MetaWorld simulation environments demonstrate the pipeline’s capability to generate high-fidelity and reliable demonstrations. Using the generated demonstrations, various skill learning algorithms achieve an accomplishment rate three times the original on novel tasks. These results highlight a novel approach to robot learning, offering a foundation for the intuitive and intelligent acquisition of novel robotic skills.
arxiv情報
著者 | Ao-Qun Jin,Tian-Yu Xiang,Xiao-Hu Zhou,Mei-Jiang Gui,Xiao-Liang Xie,Shi-Qi Liu,Shuang-Yi Wang,Yue Cao,Sheng-Bin Duan,Fu-Chao Xie,Zeng-Guang Hou |
発行日 | 2024-12-12 13:56:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google