要約
バッチ強化学習 (RL) に対して、対数損失を伴うトレーニング適合 Q 反復 (FQI-LOG) を提案します。
FQI-LOG を使用して最適に近いポリシーを学習するために必要なサンプルの数は、最適なポリシーの累積コストに比例することを示します。これは、最適に動作することで目標が達成され、コストが発生しない問題ではゼロです。
そうすることで、$\textit{small-cost}$ の境界、つまり、最適な達成可能なコストでスケールする境界をバッチ RL で証明するための一般的なフレームワークを提供します。
さらに、最適なポリシーが確実に目標を達成する問題については、二乗損失でトレーニングされた FQI よりも FQI-LOG の方が使用するサンプルが少ないことを経験的に検証しています。
要約(オリジナル)
We propose training fitted Q-iteration with log-loss (FQI-LOG) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-LOG scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving $\textit{small-cost}$ bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-LOG uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal.
arxiv情報
著者 | Alex Ayoub,Kaiwen Wang,Vincent Liu,Samuel Robertson,James McInerney,Dawen Liang,Nathan Kallus,Csaba Szepesvári |
発行日 | 2024-03-11 15:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google