要約
オフライン強化学習(RL)は、事前に収集されたデータを活用することにより、予想される合計報酬を最大化するために、動的環境で最適なポリシーを見つけることを目的としています。
不均一なデータから学ぶことは、オフラインRLの基本的な課題の1つです。
従来の方法は、単一のエピソードまたは均質なバッチエピソードから事前に収集されたデータを持つすべての個人に最適なポリシーを学ぶことに焦点を当てているため、異種集団の最適ではないポリシーをもたらす可能性があります。
この論文では、不均一なタイムステーションマルコフ決定プロセス(MDP)の個別のオフラインポリシー最適化フレームワークを提案します。
個々の潜在変数を備えた提案された不均一モデルにより、個々のQ関数を効率的に推定することができ、ペナルティを科された悲観的なパーソナライズされたポリシー学習(P4L)アルゴリズムは、行動ポリシーに関する弱い部分的なカバレッジ仮定の下での平均後悔の高速レートを保証します。
さらに、シミュレーション研究と実際のデータアプリケーションは、既存の方法と比較して提案された方法の優れた数値性能を示しています。
要約(オリジナル)
Offline reinforcement learning (RL) aims to find optimal policies in dynamic environments in order to maximize the expected total rewards by leveraging pre-collected data. Learning from heterogeneous data is one of the fundamental challenges in offline RL. Traditional methods focus on learning an optimal policy for all individuals with pre-collected data from a single episode or homogeneous batch episodes, and thus, may result in a suboptimal policy for a heterogeneous population. In this paper, we propose an individualized offline policy optimization framework for heterogeneous time-stationary Markov decision processes (MDPs). The proposed heterogeneous model with individual latent variables enables us to efficiently estimate the individual Q-functions, and our Penalized Pessimistic Personalized Policy Learning (P4L) algorithm guarantees a fast rate on the average regret under a weak partial coverage assumption on behavior policies. In addition, our simulation studies and a real data application demonstrate the superior numerical performance of the proposed method compared with existing methods.
arxiv情報
著者 | Rui Miao,Babak Shahbaba,Annie Qu |
発行日 | 2025-05-14 15:44:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google