要約
バッチ強化学習 (RL) に対して、対数損失を伴う Q 反復 (FQI ログ) を適合させたトレーニングを提案します。
FQI ログを使用して最適に近いポリシーを学習するために必要なサンプルの数は、最適なポリシーの累積コストに比例することを示します。これは、最適に動作することで目標が達成され、コストが発生しない問題ではゼロです。
そうすることで、バッチ RL で低コストの限界、つまり最適な達成可能なコストに応じてスケールする限界を証明するための一般的なフレームワークを提供します。
さらに、最適なポリシーが確実に目標を達成する問題については、二乗損失でトレーニングされた FQI よりも FQI-log が使用するサンプルが少ないことを経験的に検証しています。
要約(オリジナル)
We propose training fitted Q-iteration with log-loss (FQI-log) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-log scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving small-cost bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-log uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal.
arxiv情報
著者 | Alex Ayoub,Kaiwen Wang,Vincent Liu,Samuel Robertson,James McInerney,Dawen Liang,Nathan Kallus,Csaba Szepesvári |
発行日 | 2024-08-01 16:02:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google