Achieving Sample and Computational Efficient Reinforcement Learning by Action Space Reduction via Grouping

要約

強化学習では、高次元空間 (次元の呪いとして知られる) での最適な制御を探索する際に、状態とアクションの指数関数的な増加に対処する必要があることがよくあります。
この研究では、パフォーマンスの低下とサンプル/計算の複雑さのバランスを適切に保つために、アクション的に類似した MDP の固有の構造を学習することで、この問題に対処します。
特に、遷移分布と報酬関数の類似性に基づいてアクション空間を複数のグループに分割し、グループ内遷移カーネルとグループ内報酬の違いを捉える線形分解モデルを構築します。
私たちの理論的分析と実験の両方で、 \emph{直感に反する驚くべき結果} が明らかになりました。より洗練されたグループ化戦略は、同じグループ内のアクションを同一のものとして扱うことによって生じる近似誤差を減らすことができますが、同時に、
サンプルのサイズや計算リソースには制限があります。
この発見は、全体的なパフォーマンスの損失を最小限に抑えるために最適化できる新しい自由度としてのグループ化戦略を強調しています。
この問題に対処するために、パフォーマンスの損失とサンプル/計算の複雑さの間のバランスを取る最適なグループ化戦略を決定するための一般的な最適化問題を定式化します。
さらに、アクション空間のサイズに関係なく計算の複雑さを維持する、ほぼ最適なグループ化戦略を選択するための計算効率の高い方法を提案します。

要約(オリジナル)

Reinforcement learning often needs to deal with the exponential growth of states and actions when exploring optimal control in high-dimensional spaces (often known as the curse of dimensionality). In this work, we address this issue by learning the inherent structure of action-wise similar MDP to appropriately balance the performance degradation versus sample/computational complexity. In particular, we partition the action spaces into multiple groups based on the similarity in transition distribution and reward function, and build a linear decomposition model to capture the difference between the intra-group transition kernel and the intra-group rewards. Both our theoretical analysis and experiments reveal a \emph{surprising and counter-intuitive result}: while a more refined grouping strategy can reduce the approximation error caused by treating actions in the same group as identical, it also leads to increased estimation error when the size of samples or the computation resources is limited. This finding highlights the grouping strategy as a new degree of freedom that can be optimized to minimize the overall performance loss. To address this issue, we formulate a general optimization problem for determining the optimal grouping strategy, which strikes a balance between performance loss and sample/computational complexity. We further propose a computationally efficient method for selecting a nearly-optimal grouping strategy, which maintains its computational complexity independent of the size of the action space.

arxiv情報

著者 Yining Li,Peizhong Ju,Ness Shroff
発行日 2023-06-22 15:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク