From Play to Policy: Conditional Behavior Generation from Uncurated Robot Data

要約

オフライン データからの大規模なシーケンス モデリングにより、自然言語と画像生成のパフォーマンスが大幅に向上しましたが、そのようなアイデアをロボット工学に直接変換することは困難でした。
この重要な理由の 1 つは、専門家ではない人間のデモンストレーターから収集された未精選のロボット デモンストレーション データ、つまりプレイ データは、多くの場合、ノイズが多く、多様で、分布的にマルチモーダルであるということです。
これにより、そのようなデータから有用なタスク中心の動作を抽出することは、生成モデリングの困難な問題になります。
この作業では、条件付き行動トランスフォーマー (C-BeT) を提示します。これは、行動トランスフォーマーのマルチモーダル生成機能と将来条件付きの目標仕様を組み合わせた方法です。
一連のシミュレートされたベンチマーク タスクで、C-Bet はプレイ データからの学習において、これまでの最先端の作業よりも平均 45.7% 向上していることがわかりました。
さらに、実用的なタスク中心の行動が、タスク ラベルや報酬情報なしで純粋にプレイ データから実世界のロボットで学習できることを初めて示しました。
ロボットのビデオは、私たちのプロジェクト Web サイト (https://play-to-policy.github.io) で見るのが最適です。

要約(オリジナル)

While large-scale sequence modeling from offline data has led to impressive performance gains in natural language and image generation, directly translating such ideas to robotics has been challenging. One critical reason for this is that uncurated robot demonstration data, i.e. play data, collected from non-expert human demonstrators are often noisy, diverse, and distributionally multi-modal. This makes extracting useful, task-centric behaviors from such data a difficult generative modeling problem. In this work, we present Conditional Behavior Transformers (C-BeT), a method that combines the multi-modal generation ability of Behavior Transformer with future-conditioned goal specification. On a suite of simulated benchmark tasks, we find that C-BeT improves upon prior state-of-the-art work in learning from play data by an average of 45.7%. Further, we demonstrate for the first time that useful task-centric behaviors can be learned on a real-world robot purely from play data without any task labels or reward information. Robot videos are best viewed on our project website: https://play-to-policy.github.io

arxiv情報

著者 Zichen Jeff Cui,Yibin Wang,Nur Muhammad Mahi Shafiullah,Lerrel Pinto
発行日 2022-10-19 16:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク