Budgeting Counterfactual for Offline RL

要約

データが限られているオフライン強化学習の主な課題は、潜在的なアクションの領域内での一連の反事実推論のジレンマから生じます。つまり、別のアクションを選択した場合はどうなるでしょうか?
こうした状況では外挿誤差が頻繁に発生し、問題の範囲が広がるにつれて指数関数的に蓄積する傾向があります。
したがって、最終結果にとってすべての決定ステップが同じように重要であるわけではないことを認識し、外挿を制御するために政策が行う反事実的な決定の数を予算化することが重要になります。
ポリシー関数または値関数のいずれかで正則化を使用する既存のアプローチとは対照的に、トレーニング中に分布外アクションの量を明示的に制限するアプローチを提案します。
具体的には、私たちの方法は動的プログラミングを利用して、どこを外挿するか、どこを外挿しないかを決定します。その決定には、動作ポリシーとは異なる上限があります。
これは、配布範囲外のアクションを実行することによる改善の可能性と、外挿によってエラーが発生するリスクとの間でバランスをとります。
理論的には、$Q$ 更新ルールに対する固定小数点解の制約された最適性によって、この方法を正当化します。
広く使用されている D4RL ベンチマークのタスクでは、私たちの手法の全体的なパフォーマンスが最先端のオフライン RL 手法よりも優れていることが経験的に示されています。

要約(オリジナル)

The main challenge of offline reinforcement learning, where data is limited, arises from a sequence of counterfactual reasoning dilemmas within the realm of potential actions: What if we were to choose a different course of action? These circumstances frequently give rise to extrapolation errors, which tend to accumulate exponentially with the problem horizon. Hence, it becomes crucial to acknowledge that not all decision steps are equally important to the final outcome, and to budget the number of counterfactual decisions a policy make in order to control the extrapolation. Contrary to existing approaches that use regularization on either the policy or value function, we propose an approach to explicitly bound the amount of out-of-distribution actions during training. Specifically, our method utilizes dynamic programming to decide where to extrapolate and where not to, with an upper bound on the decisions different from behavior policy. It balances between the potential for improvement from taking out-of-distribution actions and the risk of making errors due to extrapolation. Theoretically, we justify our method by the constrained optimality of the fixed point solution to our $Q$ updating rules. Empirically, we show that the overall performance of our method is better than the state-of-the-art offline RL methods on tasks in the widely-used D4RL benchmarks.

arxiv情報

著者 Yao Liu,Pratik Chaudhari,Rasool Fakoor
発行日 2023-07-12 17:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク