要約
階層型強化学習は、異なる階層のサブポリシーを複合して、複雑なタスクを実行します。ドメインの知識に依存しないサブポリシーの自動検出は、サブポリシーを生成するための有望なアプローチです。しかし、劣化の問題は、既存の方法ではほとんど対処できない課題です。
多様性への配慮の欠如、または弱い正則化子の使用。
この論文では、アクション分布間の Wasserstein 距離を最大化することでサブポリシーの多様性を拡大する、Wasserstein Diversity-Enriched Regularizer (WDER) と呼ばれる新しいタスク非依存型正則化装置を提案します。
提案された WDER は、既存の手法の損失関数に簡単に組み込んで、パフォーマンスをさらに向上させることができます。実験結果では、ハイパーパラメータを変更することなく、従来の研究と比較して、WDER がパフォーマンスとサンプル効率を向上させることが実証されており、これは WDER の適用性と堅牢性を示しています。
要約(オリジナル)
Hierarchical reinforcement learning composites subpolicies in different hierarchies to accomplish complex tasks.Automated subpolicies discovery, which does not depend on domain knowledge, is a promising approach to generating subpolicies.However, the degradation problem is a challenge that existing methods can hardly deal with due to the lack of consideration of diversity or the employment of weak regularizers. In this paper, we propose a novel task-agnostic regularizer called the Wasserstein Diversity-Enriched Regularizer (WDER), which enlarges the diversity of subpolicies by maximizing the Wasserstein distances among action distributions. The proposed WDER can be easily incorporated into the loss function of existing methods to boost their performance further.Experimental results demonstrate that our WDER improves performance and sample efficiency in comparison with prior work without modifying hyperparameters, which indicates the applicability and robustness of the WDER.
arxiv情報
著者 | Haorui Li,Jiaqi Liang,Linjing Li,Daniel Zeng |
発行日 | 2023-08-02 07:45:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google