Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms

要約

強化学習 (RL) は、ロボット工学、自動運転、レコメンデーション システム、サプライ チェーンの最適化、生物学、機械学、金融などのさまざまな領域にわたるアプリケーションを発見し、逐次的な意思決定のための多用途のフレームワークとして機能します。
これらのアプリケーションの主な目的は、平均報酬を最大化することです。
現実世界のシナリオでは、多くの場合、学習プロセス中に特定の制約に従う必要があります。
このモノグラフは、平均報酬マルコフ決定プロセス (MDP) のコンテキスト内での制約付き RL に対するさまざまなモデルベースおよびモデルフリーのアプローチの探求に焦点を当てています。
調査は、モデルベースの戦略の検討から始まり、不確実性に直面した楽観主義と事後サンプリングという 2 つの基本的な手法を掘り下げます。
続いて、議論はパラメータ化されたモデルフリーのアプローチに移り、制約のある MDP のソリューションとして主双対ポリシー勾配ベースのアルゴリズムが検討されます。
このモノグラフでは、リグロング保証を提供し、議論されている各セットアップの制約違反を分析します。
上記の調査では、基礎となる MDP がエルゴードであると仮定します。
さらに、このモノグラフは、コミュニケーションが弱い MDP 向けに調整された結果を包含するように議論を拡張し、それによってその発見の範囲と、より広範囲の実際的なシナリオへの関連性を広げています。

要約(オリジナル)

Reinforcement Learning (RL) serves as a versatile framework for sequential decision-making, finding applications across diverse domains such as robotics, autonomous driving, recommendation systems, supply chain optimization, biology, mechanics, and finance. The primary objective in these applications is to maximize the average reward. Real-world scenarios often necessitate adherence to specific constraints during the learning process. This monograph focuses on the exploration of various model-based and model-free approaches for Constrained RL within the context of average reward Markov Decision Processes (MDPs). The investigation commences with an examination of model-based strategies, delving into two foundational methods – optimism in the face of uncertainty and posterior sampling. Subsequently, the discussion transitions to parametrized model-free approaches, where the primal-dual policy gradient-based algorithm is explored as a solution for constrained MDPs. The monograph provides regret guarantees and analyzes constraint violation for each of the discussed setups. For the above exploration, we assume the underlying MDP to be ergodic. Further, this monograph extends its discussion to encompass results tailored for weakly communicating MDPs, thereby broadening the scope of its findings and their relevance to a wider range of practical scenarios.

arxiv情報

著者 Vaneet Aggarwal,Washim Uddin Mondal,Qinbo Bai
発行日 2024-06-21 13:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク