Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration

要約

オンライン強化学習 (オンライン RL) では、サンプル効率の高い方法で最適なポリシーを見つけるために、探索と活用のバランスをとることが重要です。
これを達成するために、既存のサンプル効率の高いオンライン RL アルゴリズムは通常、推定、計画、探索の 3 つのコンポーネントで構成されます。
ただし、一般的な関数近似に対処するために、そのほとんどには、データ依存のレベルセット内での最適化や複雑なサンプリング手順など、探索を促す非現実的なアルゴリズム コンポーネントが含まれています。
この課題に対処するために、\textit{Maximize to Explore} (\texttt{MEX}) と呼ばれる実装が簡単な RL フレームワークを提案します。このフレームワークでは、推定と計画を統合する単一の目標を \emph{制約なしで} 最適化するだけで済みます。
コンポーネントの探索と活用のバランスを自動的に調整します。
理論的には、 \texttt{MEX} がマルコフ決定プロセス (MDP) の一般関数近似で線形未満のリグレスを達成し、さらに 2 プレイヤーのゼロサム マルコフ ゲーム (MG) に拡張可能であることを証明します。
一方、モデルフリーとモデルベースの両方の方法で、ディープ RL ベースラインを適応させて \texttt{MEX} の実用的なバージョンを設計します。これは、報酬がまばらなさまざまな MuJoCo 環境で安定したマージンでベースラインを上回ることができます。
一般関数近似を使用した既存のサンプル効率の高いオンライン RL アルゴリズムと比較して、 \texttt{MEX} は、より低い計算コストを享受しながら同様のサンプル効率を達成し、最新のディープ RL 手法との互換性が高くなります。

要約(オリジナル)

In online reinforcement learning (online RL), balancing exploration and exploitation is crucial for finding an optimal policy in a sample-efficient way. To achieve this, existing sample-efficient online RL algorithms typically consist of three components: estimation, planning, and exploration. However, in order to cope with general function approximators, most of them involve impractical algorithmic components to incentivize exploration, such as optimization within data-dependent level-sets or complicated sampling procedures. To address this challenge, we propose an easy-to-implement RL framework called \textit{Maximize to Explore} (\texttt{MEX}), which only needs to optimize \emph{unconstrainedly} a single objective that integrates the estimation and planning components while balancing exploration and exploitation automatically. Theoretically, we prove that \texttt{MEX} achieves a sublinear regret with general function approximations for Markov decision processes (MDP) and is further extendable to two-player zero-sum Markov games (MG). Meanwhile, we adapt deep RL baselines to design practical versions of \texttt{MEX}, in both model-free and model-based manners, which can outperform baselines by a stable margin in various MuJoCo environments with sparse rewards. Compared with existing sample-efficient online RL algorithms with general function approximations, \texttt{MEX} achieves similar sample efficiency while enjoying a lower computational cost and is more compatible with modern deep RL methods.

arxiv情報

著者 Zhihan Liu,Miao Lu,Wei Xiong,Han Zhong,Hao Hu,Shenao Zhang,Sirui Zheng,Zhuoran Yang,Zhaoran Wang
発行日 2023-10-25 14:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, math.OC, stat.ML パーマリンク