A Unified Algorithm Framework for Unsupervised Discovery of Skills based on Determinantal Point Process

要約

外部報酬の監視なしで時間的抽象化を通じて豊富なスキルを学習することは、強化学習研究の最前線にあります。
既存の作品は主に、変分とラプラシアン ベースのスキル (別名、オプション) 発見という 2 つの特徴的なカテゴリに分類されます。
前者は、相互情報損失を通じて発見されたオプションの多様性を最大化しますが、状態空間のカバレッジを無視します。一方、後者は、探索中の接続性を高めることでオプションのカバレッジを向上させることに焦点を当てますが、多様性は考慮されていません。
この論文では、決定点プロセス (DPP) の新しい使用法を通じて多様性とカバレッジを定量化し、両方の目的を明示的に最適化する教師なしオプション発見を可能にする統一フレームワークを提案します。
具体的には、状態遷移グラフのラプラシアン スペクトルを使用して DPP カーネル行列を定義し、学習されたオプションの多様性とカバレッジの両方を取得および強化する目的として、軌跡内の期待されるモード数を使用します。
提案されたオプション発見アルゴリズムは、Mujoco と Atari で構築された困難なタスクを使用して広範に評価され、提案されたアルゴリズムが多様性とカバレッジ主導のカテゴリの両方から SOTA ベースラインを大幅に上回ることが実証されました。
コードは https://github.com/LucasCJYSDL/ODPP で入手できます。

要約(オリジナル)

Learning rich skills through temporal abstractions without supervision of external rewards is at the frontier of Reinforcement Learning research. Existing works mainly fall into two distinctive categories: variational and Laplacian-based skill (a.k.a., option) discovery. The former maximizes the diversity of the discovered options through a mutual information loss but overlooks coverage of the state space, while the latter focuses on improving the coverage of options by increasing connectivity during exploration, but does not consider diversity. In this paper, we propose a unified framework that quantifies diversity and coverage through a novel use of the Determinantal Point Process (DPP) and enables unsupervised option discovery explicitly optimizing both objectives. Specifically, we define the DPP kernel matrix with the Laplacian spectrum of the state transition graph and use the expected mode number in the trajectories as the objective to capture and enhance both diversity and coverage of the learned options. The proposed option discovery algorithm is extensively evaluated using challenging tasks built with Mujoco and Atari, demonstrating that our proposed algorithm substantially outperforms SOTA baselines from both diversity- and coverage-driven categories. The codes are available at https://github.com/LucasCJYSDL/ODPP.

arxiv情報

著者 Jiayu Chen,Vaneet Aggarwal,Tian Lan
発行日 2023-07-21 13:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク