Reward-Relevance-Filtered Linear Offline Reinforcement Learning

要約

この論文では、決定理論を使用するが推定スパース性を使用しない設定で、線形関数近似を使用したオフライン強化学習を研究します。
データ生成プロセスの構造的制限により、遷移は報酬に影響を与える疎なコンポーネントに組み込まれ、報酬に影響を及ぼさない追加の外因性ダイナミクスに影響を与える可能性があると想定されています。
全状態遷移特性の推定に必要な最小限の調整セットは状態全体に依存しますが、最適なポリシー、つまり状態アクション値関数はスパース成分のみに依存します。これを因果関係/決定理論的スパース性と呼びます。
最小二乗政策評価における閾値付きなげなわの修正により、状態行動価値関数の推定を疎成分に報酬フィルタリングする方法を開発した。
サンプルの複雑さは疎成分のサイズのみに依存し、報酬フィルターを適用した線形近似 Q 反復に対して理論的な保証を提供します。

要約(オリジナル)

This paper studies offline reinforcement learning with linear function approximation in a setting with decision-theoretic, but not estimation sparsity. The structural restrictions of the data-generating process presume that the transitions factor into a sparse component that affects the reward and could affect additional exogenous dynamics that do not affect the reward. Although the minimally sufficient adjustment set for estimation of full-state transition properties depends on the whole state, the optimal policy and therefore state-action value function depends only on the sparse component: we call this causal/decision-theoretic sparsity. We develop a method for reward-filtering the estimation of the state-action value function to the sparse component by a modification of thresholded lasso in least-squares policy evaluation. We provide theoretical guarantees for our reward-filtered linear fitted-Q-iteration, with sample complexity depending only on the size of the sparse component.

arxiv情報

著者 Angela Zhou
発行日 2024-01-23 17:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク