要約
ロボット工学コミュニティは、柔軟な自然言語命令による汎用化可能なロボット操作の実現を一貫して目指してきました。
主な課題の 1 つは、アクションとテキストの両方で完全に注釈が付けられたロボットの軌跡を取得するには、時間と労力がかかることです。
ただし、アクション ラベルのない人間のアクティビティのビデオやテキスト ラベルのないロボットの軌跡など、部分的に注釈が付けられたデータは、収集がはるかに簡単です。
これらのデータを活用してロボットの汎化能力を強化することはできるでしょうか?
本稿では、テキスト命令と目標画像の条件付けをサポートする新しい手法である GR-MG を提案します。
GR-MG は、トレーニング中に、テキストとゴール画像の両方、またはテキストが利用できない場合は画像のみの軌跡と条件からゴール画像をサンプリングします。
推論中にテキストのみが提供される場合、GR-MG は拡散ベースの画像編集モデルとテキストと生成された画像の両方の条件を介してゴール画像を生成します。
このアプローチにより、GR-MG は言語を使用してタスクを柔軟に指定しながら、部分的に注釈が付けられた大量のデータを活用できるようになります。
正確な目標画像を生成するために、タスクの進捗情報を生成プロセスに注入する、新しい進捗ガイド付き目標画像生成モデルを提案します。
シミュレーション実験では、GR-MG は 5 回連続で完了するタスクの平均数を 3.35 から 4.04 に改善しました。
実際のロボット実験では、GR-MG は 58 の異なるタスクを実行でき、単純設定と一般化設定でそれぞれ成功率が 68.7\% から 78.1\%、44.4\% から 60.6\% に向上しました。
また、新しいスキルの数回の学習において、ベースライン手法を比較するよりも優れたパフォーマンスを発揮します。
ビデオデモ、コード、チェックポイントはプロジェクトページ https://gr-mg.github.io/ から入手できます。
要約(オリジナル)
The robotics community has consistently aimed to achieve generalizable robot manipulation with flexible natural language instructions. One primary challenge is that obtaining robot trajectories fully annotated with both actions and texts is time-consuming and labor-intensive. However, partially-annotated data, such as human activity videos without action labels and robot trajectories without text labels, are much easier to collect. Can we leverage these data to enhance the generalization capabilities of robots? In this paper, we propose GR-MG, a novel method which supports conditioning on a text instruction and a goal image. During training, GR-MG samples goal images from trajectories and conditions on both the text and the goal image or solely on the image when text is not available. During inference, where only the text is provided, GR-MG generates the goal image via a diffusion-based image-editing model and conditions on both the text and the generated image. This approach enables GR-MG to leverage large amounts of partially-annotated data while still using languages to flexibly specify tasks. To generate accurate goal images, we propose a novel progress-guided goal image generation model which injects task progress information into the generation process. In simulation experiments, GR-MG improves the average number of tasks completed in a row of 5 from 3.35 to 4.04. In real-robot experiments, GR-MG is able to perform 58 different tasks and improves the success rate from 68.7\% to 78.1\% and 44.4\% to 60.6\% in simple and generalization settings, respectively. It also outperforms comparing baseline methods in few-shot learning of novel skills. Video demos, code, and checkpoints are available on the project page: https://gr-mg.github.io/.
arxiv情報
著者 | Peiyan Li,Hongtao Wu,Yan Huang,Chilam Cheang,Liang Wang,Tao Kong |
発行日 | 2024-12-23 14:08:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google