Revisiting Bellman Errors for Offline Model Selection

要約

オフライン モデル選択 (OMS)、つまりログ データのみを与えられた一連のポリシーから最適なポリシーを選択することは、オフライン RL を現実世界の設定に適用するために重要です。
広く検討されているアイデアの 1 つは、関連する Q 関数の平均二乗ベルマン誤差 (MSBE) に基づいてポリシーを選択することです。
しかし、これまでの研究では、ベルマンエラーにより十分な OMS パフォーマンスを得るのに苦労しており、多くの研究者がこのアイデアを放棄するに至りました。
この目的を達成するために、これまでの研究でベルマン誤差が悲観的な結果となった理由を解明し、ベルマン誤差に基づく OMS アルゴリズムが良好に動作する条件を特定します。
さらに、従来の方法よりも正確な MSBE の新しい推定器を開発しました。
私たちの推定器は、Atari ゲームを含むさまざまな離散制御タスクで優れた OMS パフォーマンスを実現します。

要約(オリジナル)

Offline model selection (OMS), that is, choosing the best policy from a set of many policies given only logged data, is crucial for applying offline RL in real-world settings. One idea that has been extensively explored is to select policies based on the mean squared Bellman error (MSBE) of the associated Q-functions. However, previous work has struggled to obtain adequate OMS performance with Bellman errors, leading many researchers to abandon the idea. To this end, we elucidate why previous work has seen pessimistic results with Bellman errors and identify conditions under which OMS algorithms based on Bellman errors will perform well. Moreover, we develop a new estimator of the MSBE that is more accurate than prior methods. Our estimator obtains impressive OMS performance on diverse discrete control tasks, including Atari games.

arxiv情報

著者 Joshua P. Zitovsky,Daniel de Marchi,Rishabh Agarwal,Michael R. Kosorok
発行日 2023-06-06 16:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.8, stat.ML パーマリンク