要約
本研究では、オンライン多報酬多政策割引設定における政策評価問題を研究する。多報酬最良政策同定に関する先行研究を基に、我々はMR-NaS探索スキームを適応し、異なる報酬セットにわたる異なる政策を評価するためのサンプル複雑度を共同で最小化する。我々のアプローチは、効率的な探索ポリシーの設計を導くために、サンプル複雑度が値偏差の尺度によってどのようにスケールするかを明らかにする、インスタンス固有の下界を利用する。この下界の計算は難しい非凸最適化を伴うが、有限と凸の両方の報酬集合に対して成り立つ効率的な凸近似を提案する。表領域での実験により、この適応的探索スキームの有効性を示す。
要約(オリジナル)
We study the policy evaluation problem in an online multi-reward multi-policy discounted setting, where multiple reward functions must be evaluated simultaneously for different policies. We adopt an $(\epsilon,\delta)$-PAC perspective to achieve $\epsilon$-accurate estimates with high confidence across finite or convex sets of rewards, a setting that has not been investigated in the literature. Building on prior work on Multi-Reward Best Policy Identification, we adapt the MR-NaS exploration scheme to jointly minimize sample complexity for evaluating different policies across different reward sets. Our approach leverages an instance-specific lower bound revealing how the sample complexity scales with a measure of value deviation, guiding the design of an efficient exploration policy. Although computing this bound entails a hard non-convex optimization, we propose an efficient convex approximation that holds for both finite and convex reward sets. Experiments in tabular domains demonstrate the effectiveness of this adaptive exploration scheme.
arxiv情報
| 著者 | Alessio Russo,Aldo Pacchiano |
| 発行日 | 2025-02-04 17:35:51+00:00 |
| arxivサイト | arxiv_id(pdf) |