要約
オフライン強化学習では、多くの場合、ポリシーをトレーニングできる高品質のデータセットが必要です。
ただし、多くの状況では、そのようなデータセットを取得することは不可能であり、オフライン データが与えられた実際の環境で適切に機能するようにポリシーをトレーニングすることも簡単ではありません。
データ蒸留を使用して、より優れたデータセットをトレーニングおよび蒸留し、その後、より優れたポリシー モデルのトレーニングに使用することを提案します。
私たちの方法では、データセット上でトレーニングされたモデルが完全なデータセット上でトレーニングされたモデルまたはパーセンタイル動作クローニングを使用してトレーニングされたモデルと同様のパフォーマンスを達成するデータセットを合成できることを示します。
私たちのプロジェクト サイトは $\href{https://datasetdistillation4rl.github.io}{\text{here}}$ から入手できます。
実装は $\href{https://github.com/ggflow123/DDRL}{\text{この GitHub リポジトリ}}$ でも提供されています。
要約(オリジナル)
Offline reinforcement learning often requires a quality dataset that we can train a policy on. However, in many situations, it is not possible to get such a dataset, nor is it easy to train a policy to perform well in the actual environment given the offline data. We propose using data distillation to train and distill a better dataset which can then be used for training a better policy model. We show that our method is able to synthesize a dataset where a model trained on it achieves similar performance to a model trained on the full dataset or a model trained using percentile behavioral cloning. Our project site is available at $\href{https://datasetdistillation4rl.github.io}{\text{here}}$. We also provide our implementation at $\href{https://github.com/ggflow123/DDRL}{\text{this GitHub repository}}$.
arxiv情報
著者 | Jonathan Light,Yuanzhe Liu,Ziniu Hu |
発行日 | 2024-08-01 01:33:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google