Absolute Policy Optimization

要約

近年、信頼領域のポリシー強化学習は、複雑な制御タスクやゲーム シナリオに対処する上で目覚ましい成果を上げています。
ただし、このカテゴリに含まれる現代の最先端のアルゴリズムは、主に期待されるパフォーマンスの向上を重視しており、最悪の場合のパフォーマンス結果を制御する機能が欠けています。
この制限に対処するために、新しい目的関数を導入し、高い信頼性でパフォーマンスの下限確率の単調改善を保証する最適化を行います。
この画期的な理論的進歩に基づいて、絶対ポリシー最適化 (APO) と呼ばれる実践的なソリューションをさらに導入します。
私たちの実験は、困難な連続制御ベンチマーク タスク全体にわたるアプローチの有効性を実証し、Atari ゲームのマスタリングへの適用可能性を拡張します。
私たちの調査結果では、APO とその効率的なバリエーションである Proximal Absolute Policy Optimization (PAPO) が最先端のポリシー勾配アルゴリズムを大幅に上回り、その結果、予想されるパフォーマンスだけでなく最悪の場合のパフォーマンスも大幅に向上することが明らかになりました。

要約(オリジナル)

In recent years, trust region on-policy reinforcement learning has achieved impressive results in addressing complex control tasks and gaming scenarios. However, contemporary state-of-the-art algorithms within this category primarily emphasize improvement in expected performance, lacking the ability to control over the worst-case performance outcomes. To address this limitation, we introduce a novel objective function, optimizing which leads to guaranteed monotonic improvement in the lower probability bound of performance with high confidence. Building upon this groundbreaking theoretical advancement, we further introduce a practical solution called Absolute Policy Optimization (APO). Our experiments demonstrate the effectiveness of our approach across challenging continuous control benchmark tasks and extend its applicability to mastering Atari games. Our findings reveal that APO as well as its efficient variation Proximal Absolute Policy Optimization (PAPO) significantly outperforms state-of-the-art policy gradient algorithms, resulting in substantial improvements in worst-case performance, as well as expected performance.

arxiv情報

著者 Weiye Zhao,Feihan Li,Yifan Sun,Rui Chen,Tianhao Wei,Changliu Liu
発行日 2024-02-14 19:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク