要約
この論文では、この分野における 2 つの主要な最近の開発、視覚運動操作のための普及政策と、ロボットスキル学習システムを取得するための事前訓練された大規模なマルチモーダル基礎モデルに基づいて構築します。
このシステムは、遠隔操作によるデモンストレーションを行うことで、視覚運動拡散政策の行動クローニング アプローチを介して新しいスキルを取得できます。
基礎モデルは、自然言語によるユーザーのプロンプトを考慮してスキル選択を実行するために使用されています。
スキルを実行する前に、基本モデルはワークスペースの観察に基づいて前提条件チェックを実行します。
この目的のために、さまざまな基本モデルのパフォーマンスを比較し、シミュレーションと現実世界でユーザーが教えたスキルの詳細な実験的評価を行います。
最後に、現実世界での困難な食品提供シナリオでの複合システムを紹介します。
すべての実験実行のビデオと、シミュレーションと現実世界での新しいスキルを教えるプロセスは、プロジェクトの Web サイトで公開されています。
要約(オリジナル)
In this paper, we build upon two major recent developments in the field, Diffusion Policies for visuomotor manipulation and large pre-trained multimodal foundational models to obtain a robotic skill learning system. The system can obtain new skills via the behavioral cloning approach of visuomotor diffusion policies given teleoperated demonstrations. Foundational models are being used to perform skill selection given the user’s prompt in natural language. Before executing a skill the foundational model performs a precondition check given an observation of the workspace. We compare the performance of different foundational models to this end as well as give a detailed experimental evaluation of the skills taught by the user in simulation and the real world. Finally, we showcase the combined system on a challenging food serving scenario in the real world. Videos of all experimental executions, as well as the process of teaching new skills in simulation and the real world, are available on the project’s website.
arxiv情報
著者 | Nils Ingelhag,Jesper Munkeby,Jonne van Haastregt,Anastasia Varava,Michael C. Welle,Danica Kragic |
発行日 | 2024-03-25 13:04:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google