The Value of Reward Lookahead in Reinforcement Learning

要約

強化学習 (RL) では、エージェントは、得られる報酬の最大化を目指しながら、変化する環境と順次対話します。
通常、報酬は行動した後にのみ観察されるため、目標は期待される累積報酬を最大化することです。
しかし、実際の多くの設定では、報酬情報が事前に観察されます。価格は取引を実行する前に観察されます。
付近の交通情報は部分的にはわかっています。
そして、目標は対話の前にエージェントに与えられることがよくあります。
本研究では、こうした将来の報酬情報の価値を競合分析というレンズを通して定量的に分析することを目指します。
特に、標準的な RL エージェントの価値と、部分的な将来報酬先読みを備えたエージェントの価値との間の比率を測定します。
最悪の場合の報酬分布を特徴付け、最悪の場合の報酬期待の正確な比率を導き出します。
驚くべきことに、結果として得られる比率は、オフライン RL と報酬なしの探索における既知の量に関連しています。
さらに、最悪の場合のダイナミクスを考慮して、比率に厳しい制限を設けます。
私たちの結果は、行動する前の即時の報酬の観察から、インタラクションが始まる前のすべての報酬の観察までの全範囲をカバーしています。

要約(オリジナル)

In reinforcement learning (RL), agents sequentially interact with changing environments while aiming to maximize the obtained rewards. Usually, rewards are observed only after acting, and so the goal is to maximize the expected cumulative reward. Yet, in many practical settings, reward information is observed in advance — prices are observed before performing transactions; nearby traffic information is partially known; and goals are oftentimes given to agents prior to the interaction. In this work, we aim to quantifiably analyze the value of such future reward information through the lens of competitive analysis. In particular, we measure the ratio between the value of standard RL agents and that of agents with partial future-reward lookahead. We characterize the worst-case reward distribution and derive exact ratios for the worst-case reward expectations. Surprisingly, the resulting ratios relate to known quantities in offline RL and reward-free exploration. We further provide tight bounds for the ratio given the worst-case dynamics. Our results cover the full spectrum between observing the immediate rewards before acting to observing all the rewards before the interaction starts.

arxiv情報

著者 Nadav Merlis,Dorian Baudry,Vianney Perchet
発行日 2024-03-18 10:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク