A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning

要約

従来、TDとFQIは、目標値関数に対する更新回数が異なると見なされてきた:TDは1回の更新を行い、FQIは無限回の更新を行い、部分適合Q反復(PFQI)は、OPE設定のDeep Q-Networks(DQN)におけるターゲットネットワークの使用のように、有限回の更新を行う。しかし、この視点は、これらのアルゴリズム間の収束のつながりを捉えておらず、例えば、TDの収束はFQIの収束を意味するといった誤った結論を導く可能性がある。本論文では、線形値関数近似に焦点を当て、TD、FQI、PFQIを、最小二乗時間差分(LSTD)系を解く同じ反復法として統一し、異なる前提条件と行列分割スキームを用いるという新しい視点を提供する。TDは一定のプリコンディショナを用い、FQIはデータ特徴適応型プリコンディショナを用い、PFQIはこの2つの間を遷移する。そして、線形関数近似の文脈では、同じ目標値関数の下で更新回数を増やすことは、本質的に定数プリコンディショナからデータ特徴適応プリコンディショナへの移行を意味することを明らかにする。この統一的な視点はまた、これらのアルゴリズムの収束条件の分析を単純化し、多くの問題を明らかにする。その結果、選択された特徴量の特定の性質(例えば線形独立性)を仮定することなく、各アルゴリズムの収束を完全に特徴付けることができる。また、特徴表現に関する一般的な仮定が収束にどのような影響を与えるかを検証し、収束に重要な特徴に関する新たな条件を発見する。これらの収束条件により、これらのアルゴリズム間の収束のつながりを確立し、重要な疑問を解決することができる。

要約(オリジナル)

Traditionally, TD and FQI are viewed as differing in the number of updates toward the target value function: TD makes one update, FQI makes an infinite number, and Partial Fitted Q-Iteration (PFQI) performs a finite number, such as the use of a target network in Deep Q-Networks (DQN) in the OPE setting. This perspective, however, fails to capture the convergence connections between these algorithms and may lead to incorrect conclusions, for example, that the convergence of TD implies the convergence of FQI. In this paper, we focus on linear value function approximation and offer a new perspective, unifying TD, FQI, and PFQI as the same iterative method for solving the Least Squares Temporal Difference (LSTD) system, but using different preconditioners and matrix splitting schemes. TD uses a constant preconditioner, FQI employs a data-feature adaptive preconditioner, and PFQI transitions between the two. Then, we reveal that in the context of linear function approximation, increasing the number of updates under the same target value function essentially represents a transition from using a constant preconditioner to data-feature adaptive preconditioner. This unifying perspective also simplifies the analyses of the convergence conditions for these algorithms and clarifies many issues. Consequently, we fully characterize the convergence of each algorithm without assuming specific properties of the chosen features (e.g., linear independence). We also examine how common assumptions about feature representations affect convergence, and discover new conditions on features that are important for convergence. These convergence conditions allow us to establish the convergence connections between these algorithms and to address important questions.

arxiv情報

著者 Zechen Wu,Amy Greenwald,Ronald Parr
発行日 2025-01-03 12:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク