An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models

要約

従来の統計学習では、データ ポイントは通常、未知の確率分布に従って独立して同一に分布している (i.i.d.) と想定されます。
この論文では、データ ポイントを相互接続されているものとして認識し、データ モデリングにマルコフ報酬プロセス (MRP) を採用するという、対照的な視点を示します。
解決策として一般化時間差分 (TD) 学習アルゴリズムを導入し、強化学習 (RL) 内のポリシーに基づくポリシー評価問題として典型的な教師あり学習を再定式化します。
理論的には、私たちの分析は、線形 TD 学習の解と通常最小二乗 (OLS) の間の関係を引き出します。
また、特定の条件下、特にノイズが相関している場合、TD の解が OLS よりも効果的な推定器であることが証明されることも示します。
さらに、線形関数近似の下で一般化 TD アルゴリズムの収束を確立します。
実証研究では、理論的結果を検証し、TD アルゴリズムの重要な設計を検証し、深層学習による回帰や画像分類などのタスクを含む、さまざまなデータセットにわたる実用性を示します。

要約(オリジナル)

In traditional statistical learning, data points are usually assumed to be independently and identically distributed (i.i.d.) following an unknown probability distribution. This paper presents a contrasting viewpoint, perceiving data points as interconnected and employing a Markov reward process (MRP) for data modeling. We reformulate the typical supervised learning as an on-policy policy evaluation problem within reinforcement learning (RL), introducing a generalized temporal difference (TD) learning algorithm as a resolution. Theoretically, our analysis draws connections between the solutions of linear TD learning and ordinary least squares (OLS). We also show that under specific conditions, particularly when noises are correlated, the TD’s solution proves to be a more effective estimator than OLS. Furthermore, we establish the convergence of our generalized TD algorithms under linear function approximation. Empirical studies verify our theoretical results, examine the vital design of our TD algorithm and show practical utility across various datasets, encompassing tasks such as regression and image classification with deep learning.

arxiv情報

著者 Yangchen Pan,Junfeng Wen,Chenjun Xiao,Philip Torr
発行日 2024-04-23 21:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク