CROP: Towards Distributional-Shift Robust Reinforcement Learning using Compact Reshaped Observation Processing

要約

タイトル:CROP:コンパクトな形状変換された観測処理を使用した分布シフトロバスト強化学習に向けて

要約:
– 強化学習(RL)の安全な適用には、限られた学習データから未知のシナリオに汎化することが必要である。
– しかし、変化する状況下でタスクを達成することはRLの主要な課題である。
– 汎化のために、トレーニングデータの多様性を増やすデータ拡張技術を使用する現在の最先端のアプローチが存在する。
– しかしこれは、トレーニング環境に過剰適合することを防ぐものの、方針最適化を妨げる。
– 適切な情報のみを含む観測を作成することは、それ自体が課題であることが示されている。
– データ効率性と汎化能力を向上させるために、ポリシー最適化に使用される状態情報を減らすためにCompact Reshaped Observation Processing(CROP)を提案する。
– 適切な情報のみを提供することにより、特定のトレーニングレイアウトに過剰適合することは防止され、未知の環境に汎化される。
– 3つのCROPを明確にし、完全観測観測およびアクション空間に適用できる方法を提供する。
– 分布シフトされた安全なグリッドワールドでCROPの改善を実証的に示し、2つの異なるサイズの手続き的に生成された迷路の完全観測とデータ拡張とのベンチマーク比較を提供する。

要約(オリジナル)

The safe application of reinforcement learning (RL) requires generalization from limited training data to unseen scenarios. Yet, fulfilling tasks under changing circumstances is a key challenge in RL. Current state-of-the-art approaches for generalization apply data augmentation techniques to increase the diversity of training data. Even though this prevents overfitting to the training environment(s), it hinders policy optimization. Crafting a suitable observation, only containing crucial information, has been shown to be a challenging task itself. To improve data efficiency and generalization capabilities, we propose Compact Reshaped Observation Processing (CROP) to reduce the state information used for policy optimization. By providing only relevant information, overfitting to a specific training layout is precluded and generalization to unseen environments is improved. We formulate three CROPs that can be applied to fully observable observation- and action-spaces and provide methodical foundation. We empirically show the improvements of CROP in a distributionally shifted safety gridworld. We furthermore provide benchmark comparisons to full observability and data-augmentation in two different-sized procedurally generated mazes.

arxiv情報

著者 Philipp Altmann,Fabian Ritz,Leonard Feuchtinger,Jonas Nüßlein,Claudia Linnhoff-Popien,Thomy Phan
発行日 2023-04-26 15:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク