Autonomous Improvement of Instruction Following Skills via Foundation Models

要約

自律的に収集された経験から改善できるインテリジェントな指示従うロボットには、ロボットの学習を変革する可能性があります。高価な遠隔操作のデモンストレーション データを収集する代わりに、ロボット フリートを大規模に展開することで、集合的にパフォーマンスを向上させることができる大量の自律データを迅速に収集できます。

ただし、自律的な改善には、2 つの重要な問題を解決する必要があります。(i) 多様で意味的に意味のあるロボット データを収集できるスケーラブルなデータ収集手順を完全に自動化すること、および (ii) 人間による注釈のない、最適ではない自律的なデータからの学習。
この目的を達成するために、私たちはこれらの課題に対処し、人間の監督なしで自律的に収集されたデータから指示に従うポリシーを改善できる新しいアプローチを提案します。
私たちのフレームワークは、視覚言語モデルを活用して、新しい環境で意味的に意味のある経験を収集して評価し、その後、タスクに続く命令を(意味論的な)言語条件付き画像生成と(非意味論的)目標達成に分解することを利用します。
人間による注釈なしで自律的に収集されたデータから改善するのが現実的です。
私たちは現実世界で広範な実験を実施してアプローチの有効性を実証し、目に見えない一連の環境において自律的に収集されたデータを使用してロボットのポリシーを大幅に改善できることがわかりました。
私たちは、セマンティック自律改善パイプラインのコードと、5 つのテーブルトップ環境にわたって収集された 30.5K の軌跡の自律データセットをオープンソースにしています。

要約(オリジナル)

Intelligent instruction-following robots capable of improving from autonomously collected experience have the potential to transform robot learning: instead of collecting costly teleoperated demonstration data, large-scale deployment of fleets of robots can quickly collect larger quantities of autonomous data that can collectively improve their performance. However, autonomous improvement requires solving two key problems: (i) fully automating a scalable data collection procedure that can collect diverse and semantically meaningful robot data and (ii) learning from non-optimal, autonomous data with no human annotations. To this end, we propose a novel approach that addresses these challenges, allowing instruction-following policies to improve from autonomously collected data without human supervision. Our framework leverages vision-language models to collect and evaluate semantically meaningful experiences in new environments, and then utilizes a decomposition of instruction following tasks into (semantic) language-conditioned image generation and (non-semantic) goal reaching, which makes it significantly more practical to improve from this autonomously collected data without any human annotations. We carry out extensive experiments in the real world to demonstrate the effectiveness of our approach, and find that in a suite of unseen environments, the robot policy can be improved significantly with autonomously collected data. We open-source the code for our semantic autonomous improvement pipeline, as well as our autonomous dataset of 30.5K trajectories collected across five tabletop environments.

arxiv情報

著者 Zhiyuan Zhou,Pranav Atreya,Abraham Lee,Homer Walke,Oier Mees,Sergey Levine
発行日 2024-07-30 08:26:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク