Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning

要約

Learning from Demonstration (LfD) は、専門家のデモンストレーションを使用してロボット制御ポリシーを学習する一般的な手法です。
しかし、専門家品質のデモンストレーションを取得するのが難しいため、LfD 手法の適用性が制限されます。実世界のデータ収集にはコストがかかることが多く、デモンストレーションの品質はデモンストレーターの能力と安全性への懸念に大きく依存します。
多くの研究ではデータ拡張 (DA) を利用して追加のデモンストレーション データを安価に生成していますが、ほとんどの DA 研究はランダムな方法で拡張データを生成し、最終的には非常に次善のデータを生成します。
この研究では、専門家品質の拡張データを生成する人間主導の DA フレームワークである Guided Data Augmentation (GuDA) を提案します。
GuDA の重要な洞察は、エキスパート データを生成するために必要な一連のアクションを実証するのは難しいかもしれないが、ユーザーは多くの場合、拡張された軌跡セグメントがタスクの進行状況を表す時期を簡単に識別できるということです。
したがって、ユーザーは DA プロセスに一連の単純なルールを課して、専門家の動作に近い拡張サンプルを自動的に生成できます。
GuDA からポリシーを抽出するには、既製のオフライン強化学習と動作複製アルゴリズムを使用します。
物理的なロボット サッカー タスク、シミュレートされた D4RL ナビゲーション タスク、シミュレートされた自動運転タスク、およびシミュレートされたサッカー タスクで GuDA を評価します。
経験的に、GuDA は、最適ではない可能性のある少数のデモンストレーションからの学習を可能にし、拡張データをランダムにサンプリングする DA 戦略よりも大幅に優れたパフォーマンスを発揮することがわかりました。

要約(オリジナル)

Learning from demonstration (LfD) is a popular technique that uses expert demonstrations to learn robot control policies. However, the difficulty in acquiring expert-quality demonstrations limits the applicability of LfD methods: real-world data collection is often costly, and the quality of the demonstrations depends greatly on the demonstrator’s abilities and safety concerns. A number of works have leveraged data augmentation (DA) to inexpensively generate additional demonstration data, but most DA works generate augmented data in a random fashion and ultimately produce highly suboptimal data. In this work, we propose Guided Data Augmentation (GuDA), a human-guided DA framework that generates expert-quality augmented data. The key insight of GuDA is that while it may be difficult to demonstrate the sequence of actions required to produce expert data, a user can often easily identify when an augmented trajectory segment represents task progress. Thus, the user can impose a series of simple rules on the DA process to automatically generate augmented samples that approximate expert behavior. To extract a policy from GuDA, we use off-the-shelf offline reinforcement learning and behavior cloning algorithms. We evaluate GuDA on a physical robot soccer task as well as simulated D4RL navigation tasks, a simulated autonomous driving task, and a simulated soccer task. Empirically, we find that GuDA enables learning from a small set of potentially suboptimal demonstrations and substantially outperforms a DA strategy that samples augmented data randomly.

arxiv情報

著者 Nicholas E. Corrado,Yuxiao Qu,John U. Balis,Adam Labiosa,Josiah P. Hanna
発行日 2023-10-27 16:34:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク