Deep Laplacian-based Options for Temporally-Extended Exploration

要約

より良い学習のための豊富な経験の流れを生成する探索的アクションを選択することは、強化学習 (RL) における基本的な課題です。
この問題に取り組むアプローチは、オプションとも呼ばれる、長期間にわたる特定のポリシーに従ってアクションを選択することから構成されます。
このような探索的なオプションを導出する最近の一連の作業は、グラフ ラプラシアンの固有関数に基づいて構築されています。
重要なのは、これまでこれらの方法は、(1) グラフのラプラシアン行列が与えられているか完全に推定できる、(2) この行列の固有分解の実行が計算上扱いやすい、(3) 値関数が
正確に学びました。
さらに、これらの方法では、別のオプション検出フェーズが必要でした。
これらの仮定は基本的に拡張可能ではありません。
この論文では、これらの制限に対処し、ラプラシアンの固有関数を直接近似する最近の結果を活用して、オプションベースの探索を真にスケールアップする方法を示します。
そのために、ラプラシアン ベースのオプションを発見するための完全オンラインのディープ RL アルゴリズムを導入し、さまざまなピクセル ベースのタスクに対するアプローチを評価します。
私たちはいくつかの最先端の探査方法と比較し、私たちのアプローチが効果的で一般的であり、非定常環境において特に有望であることを示します。

要約(オリジナル)

Selecting exploratory actions that generate a rich stream of experience for better learning is a fundamental challenge in reinforcement learning (RL). An approach to tackle this problem consists in selecting actions according to specific policies for an extended period of time, also known as options. A recent line of work to derive such exploratory options builds upon the eigenfunctions of the graph Laplacian. Importantly, until now these methods have been mostly limited to tabular domains where (1) the graph Laplacian matrix was either given or could be fully estimated, (2) performing eigendecomposition on this matrix was computationally tractable, and (3) value functions could be learned exactly. Additionally, these methods required a separate option discovery phase. These assumptions are fundamentally not scalable. In this paper we address these limitations and show how recent results for directly approximating the eigenfunctions of the Laplacian can be leveraged to truly scale up options-based exploration. To do so, we introduce a fully online deep RL algorithm for discovering Laplacian-based options and evaluate our approach on a variety of pixel-based tasks. We compare to several state-of-the-art exploration methods and show that our approach is effective, general, and especially promising in non-stationary settings.

arxiv情報

著者 Martin Klissarov,Marlos C. Machado
発行日 2023-06-09 16:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク