要約
近年、信頼領域のポリシー強化学習は、複雑な制御タスクやゲーム シナリオに対処する上で目覚ましい成果を上げています。
ただし、このカテゴリに含まれる現代の最先端のアルゴリズムは、主に期待されるパフォーマンスの向上を重視しており、最悪の場合のパフォーマンス結果を制御する機能が欠けています。
この制限に対処するために、新しい目的関数を導入します。
これを最適化することで、ほぼ全体的なパフォーマンス サンプル (絶対パフォーマンス) の下限が単調に向上することが保証されます。
この画期的な理論的進歩を考慮して、一連の近似を通じてこの理論に基づいたアルゴリズムを改良し、その結果、絶対ポリシー最適化 (APO) と呼ばれる実用的なソリューションが生まれました。
私たちの実験は、困難な連続制御ベンチマーク タスク全体にわたるアプローチの有効性を実証し、Atari ゲームのマスタリングへの適用可能性を拡張します。
私たちの調査結果では、APO が最先端のポリシー勾配アルゴリズムを大幅に上回っており、その結果、予想されるパフォーマンスと最悪の場合のパフォーマンスの両方が大幅に向上していることが明らかになりました。
要約(オリジナル)
In recent years, trust region on-policy reinforcement learning has achieved impressive results in addressing complex control tasks and gaming scenarios. However, contemporary state-of-the-art algorithms within this category primarily emphasize improvement in expected performance, lacking the ability to control over the worst-case performance outcomes. To address this limitation, we introduce a novel objective function; by optimizing which, it will lead to guaranteed monotonic improvement in the lower bound of near-total performance samples (absolute performance). Considering this groundbreaking theoretical advancement, we then refine this theoretically grounded algorithm through a series of approximations, resulting in a practical solution called Absolute Policy Optimization (APO). Our experiments demonstrate the effectiveness of our approach across challenging continuous control benchmark tasks and extend its applicability to mastering Atari games. Our findings reveal that APO significantly outperforms state-of-the-art policy gradient algorithms, resulting in substantial improvements in both expected performance and worst-case performance.
arxiv情報
著者 | Weiye Zhao,Feihan Li,Yifan Sun,Rui Chen,Tianhao Wei,Changliu Liu |
発行日 | 2023-10-20 02:40:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google