要約
外部報酬の監視を受けずにオプションフレームワークの下で豊富なスキルを学習することは、強化学習研究の最前線にあります。
既存の研究は主に 2 つの特徴的なカテゴリに分類されます。 1 つは相互情報損失 (カバレッジを無視しながら) を通じてオプションの多様性を最大化する変分オプション発見、もう 1 つは状態空間の接続性を高めることでオプションのカバレッジを向上させることに焦点を当てたラプラシアン ベースの方法です (
多様性を無視しながら)。
この論文では、教師なしオプション発見における多様性とカバレッジが実際に同じ数学的枠組みの下で統合できることを示します。
具体的には、決定点プロセス (DPP) の新しい使用法を通じて、学習されたオプションの多様性とカバレッジを明示的に定量化し、これらの目標を最適化して、優れた多様性とカバレッジの両方を備えたオプションを発見します。
私たちが提案したアルゴリズム ODPP は、Mujoco と Atari で作成された困難なタスクについて広範な評価を受けました。
結果は、私たちのアルゴリズムが多様性とカバレッジ主導のカテゴリーの両方で最先端のベースラインを上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Learning rich skills under the option framework without supervision of external rewards is at the frontier of reinforcement learning research. Existing works mainly fall into two distinctive categories: variational option discovery that maximizes the diversity of the options through a mutual information loss (while ignoring coverage) and Laplacian-based methods that focus on improving the coverage of options by increasing connectivity of the state space (while ignoring diversity). In this paper, we show that diversity and coverage in unsupervised option discovery can indeed be unified under the same mathematical framework. To be specific, we explicitly quantify the diversity and coverage of the learned options through a novel use of Determinantal Point Process (DPP) and optimize these objectives to discover options with both superior diversity and coverage. Our proposed algorithm, ODPP, has undergone extensive evaluation on challenging tasks created with Mujoco and Atari. The results demonstrate that our algorithm outperforms state-of-the-art baselines in both diversity- and coverage-driven categories.
arxiv情報
著者 | Jiayu Chen,Vaneet Aggarwal,Tian Lan |
発行日 | 2023-09-26 14:44:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google