Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse

要約

タイトル:理論的にサンプルを再利用する一般化方策改善アルゴリズム

要約:
– 学習ベースの制御手法は複雑なシステムで運用を改善する可能性がある
– 既存のアルゴリズムは、実用的な性能保証とデータ効率の2つの重要な展開要件のトレードオフがある
– オフポリシーアルゴリズムはサンプル再利用によって効率的にデータを利用するが、理論的保証がない
– オンポリシーアルゴリズムはトレーニング中に方策改善を近似的に保証するが、サンプル複雑さが高い
– 競合する2つの目標をバランスするために、再利用性とオンポリシーの方策改善の保証を組み合わせた一般化方策改善アルゴリズムのクラスを開発した
– DeepMind Control Suiteの様々な連続制御タスクでの広範な実験解析によって、この新しいアルゴリズムの利点を実証した

要点:

– 学習ベースの制御手法は複雑なシステムで運用を改善する可能性がある
– 既存のアルゴリズムは実用的な性能保証とデータ効率のトレードオフがある
– オフポリシーアルゴリズムはサンプル再利用によって効率的にデータを利用するが、理論的保証がない
– オンポリシーアルゴリズムはトレーニング中に方策改善を近似的に保証するが、サンプル複雑さが高い
– 再利用性と方策改善の保証を組み合わせた一般化方策改善アルゴリズムのクラスを開発した
– DeepMind Control Suiteの様々な連続制御タスクでの広範な実験解析によって、この新しいアルゴリズムの利点を実証した

要約(オリジナル)

Data-driven, learning-based control methods offer the potential to improve operations in complex systems, and model-free deep reinforcement learning represents a popular approach to data-driven control. However, existing classes of algorithms present a trade-off between two important deployment requirements for real-world control: (i) practical performance guarantees and (ii) data efficiency. Off-policy algorithms make efficient use of data through sample reuse but lack theoretical guarantees, while on-policy algorithms guarantee approximate policy improvement throughout training but suffer from high sample complexity. In order to balance these competing goals, we develop a class of Generalized Policy Improvement algorithms that combines the policy improvement guarantees of on-policy methods with the efficiency of sample reuse. We demonstrate the benefits of this new class of algorithms through extensive experimental analysis on a variety of continuous control tasks from the DeepMind Control Suite.

arxiv情報

著者 James Queeney,Ioannis Ch. Paschalidis,Christos G. Cassandras
発行日 2023-04-14 02:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク