Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning

要約

オフライン強化学習 (RL) では、RL エージェントは、以前に収集されたデータの固定データセットのみを使用してタスクを解決することを学習します。
オフライン RL は現実世界のロボット制御ポリシーの学習には成功していますが、通常、配布外の状態に一般化される効果的なポリシーを学習するには、専門家品質の大量のデータが必要です。
残念ながら、現実世界のタスクにおいてそのようなデータを取得するのは困難であり、費用がかかることがよくあります。
最近のいくつかの作品では、データ拡張 (DA) を利用して追加データを安価に生成していますが、ほとんどの DA 作品はランダムな方法で拡張を適用し、最終的には非常に次善の拡張エクスペリエンスを生成します。
この研究では、専門家品質の拡張データを生成する人間主導の DA フレームワークである Guided Data Augmentation (GuDA) を提案します。
GuDA の背後にある重要な洞察は、エキスパート データを生成するために必要な一連のアクションを実証するのは難しいかもしれないが、拡張された軌跡セグメントがタスクの完了に向けた進捗状況を表す場合、ユーザーは多くの場合簡単に特徴付けることができるということです。
したがって、ユーザーは可能な拡張のスペースを制限して、最適ではない拡張データを自動的に拒否することができます。
GuDA からポリシーを抽出するには、既製のオフライン強化学習と動作複製アルゴリズムを使用します。
物理的なロボット サッカー タスク、シミュレートされた D4RL ナビゲーション タスク、シミュレートされた自動運転タスク、およびシミュレートされたサッカー タスクで GuDA を評価します。
経験的に、GuDA は、潜在的に最適ではない経験の小さな初期データセットを与えられた学習を可能にし、ランダム DA 戦略やモデルベースの DA 戦略よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

In offline reinforcement learning (RL), an RL agent learns to solve a task using only a fixed dataset of previously collected data. While offline RL has been successful in learning real-world robot control policies, it typically requires large amounts of expert-quality data to learn effective policies that generalize to out-of-distribution states. Unfortunately, such data is often difficult and expensive to acquire in real-world tasks. Several recent works have leveraged data augmentation (DA) to inexpensively generate additional data, but most DA works apply augmentations in a random fashion and ultimately produce highly suboptimal augmented experience. In this work, we propose Guided Data Augmentation (GuDA), a human-guided DA framework that generates expert-quality augmented data. The key insight behind GuDA is that while it may be difficult to demonstrate the sequence of actions required to produce expert data, a user can often easily characterize when an augmented trajectory segment represents progress toward task completion. Thus, a user can restrict the space of possible augmentations to automatically reject suboptimal augmented data. To extract a policy from GuDA, we use off-the-shelf offline reinforcement learning and behavior cloning algorithms. We evaluate GuDA on a physical robot soccer task as well as simulated D4RL navigation tasks, a simulated autonomous driving task, and a simulated soccer task. Empirically, GuDA enables learning given a small initial dataset of potentially suboptimal experience and outperforms a random DA strategy as well as a model-based DA strategy.

arxiv情報

著者 Nicholas E. Corrado,Yuxiao Qu,John U. Balis,Adam Labiosa,Josiah P. Hanna
発行日 2024-08-08 12:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク