Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning

要約

バッチ強化学習 (RL) に対して、対数損失を伴う Q 反復 (FQI ログ) を適合させたトレーニングを提案します。
FQI ログを使用して最適に近いポリシーを学習するために必要なサンプルの数は、最適なポリシーの累積コストに比例することを示します。これは、最適に動作することで目標が達成され、コストが発生しない問題ではゼロです。
そうすることで、バッチ RL で低コストの限界、つまり最適な達成可能なコストに応じてスケールする限界を証明するための一般的なフレームワークを提供します。
さらに、最適なポリシーが確実に目標を達成する問題については、二乗損失でトレーニングされた FQI よりも FQI-log が使用するサンプルが少ないことを経験的に検証しています。

要約(オリジナル)

We propose training fitted Q-iteration with log-loss (FQI-log) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-log scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving small-cost bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-log uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal.

arxiv情報

著者 Alex Ayoub,Kaiwen Wang,Vincent Liu,Samuel Robertson,James McInerney,Dawen Liang,Nathan Kallus,Csaba Szepesvári
発行日 2024-08-01 16:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク