GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy

要約

ロボット工学コミュニティは、柔軟な自然言語命令による汎用化可能なロボット操作の実現を一貫して目指してきました。
主な課題の 1 つは、アクションとテキストの両方で完全に注釈が付けられたロボット データを取得するには、時間と労力がかかることです。
ただし、アクション ラベルのない人間の活動ビデオや言語ラベルのないロボットのプレイ データなど、部分的に注釈が付けられたデータは、収集がはるかに簡単です。
これらのデータを活用してロボットの汎化能力を高めることはできるでしょうか?
本稿では、言語指導と目標イメージの両方に対する条件付けを支援する新しい手法であるGR-MGを提案する。
GR-MG は、トレーニング中に、テキストとゴール画像の両方、またはテキストが利用できない場合は画像のみの軌跡と条件からゴール画像をサンプリングします。
推論中にテキストのみが提供される場合、GR-MG は拡散ベースの画像編集モデルとテキストと生成された画像の両方の条件を介してゴール画像を生成します。
このアプローチにより、GR-MG は言語を使用してタスクを柔軟に指定しながら、部分的に注釈が付けられた大量のデータを活用できるようになります。
正確な目標画像を生成するために、生成プロセスにタスクの進捗情報を注入し、忠実度とパフォーマンスを大幅に向上させる、新しい進捗ガイド付き目標画像生成モデルを提案します。
シミュレーション実験では、GR-MG は 5 回連続で完了するタスクの平均数を 3.35 から 4.04 に改善しました。
実際のロボット実験では、GR-MG は 47 の異なるタスクを実行でき、単純設定と一般化設定でそれぞれ成功率が 62.5% から 75.0%、42.4% から 57.6% に向上しました。
コードとチェックポイントはプロジェクト ページ https://gr-mg.github.io/ で入手できます。

要約(オリジナル)

The robotics community has consistently aimed to achieve generalizable robot manipulation with flexible natural language instructions. One of the primary challenges is that obtaining robot data fully annotated with both actions and texts is time-consuming and labor-intensive. However, partially annotated data, such as human activity videos without action labels and robot play data without language labels, is much easier to collect. Can we leverage these data to enhance the generalization capability of robots? In this paper, we propose GR-MG, a novel method which supports conditioning on both a language instruction and a goal image. During training, GR-MG samples goal images from trajectories and conditions on both the text and the goal image or solely on the image when text is unavailable. During inference, where only the text is provided, GR-MG generates the goal image via a diffusion-based image-editing model and condition on both the text and the generated image. This approach enables GR-MG to leverage large amounts of partially annotated data while still using language to flexibly specify tasks. To generate accurate goal images, we propose a novel progress-guided goal image generation model which injects task progress information into the generation process, significantly improving the fidelity and the performance. In simulation experiments, GR-MG improves the average number of tasks completed in a row of 5 from 3.35 to 4.04. In real-robot experiments, GR-MG is able to perform 47 different tasks and improves the success rate from 62.5% to 75.0% and 42.4% to 57.6% in simple and generalization settings, respectively. Code and checkpoints will be available at the project page: https://gr-mg.github.io/.

arxiv情報

著者 Peiyan Li,Hongtao Wu,Yan Huang,Chilam Cheang,Liang Wang,Tao Kong
発行日 2024-08-26 15:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク