Online Statistical Inference for Time-varying Sample-averaged Q-learning

要約

強化学習 (RL) は、複雑で不確実な環境でエージェントをトレーニングするための重要なアプローチとして浮上しました。
RL アルゴリズムに統計的推論を組み込むことは、モデルのパフォーマンスの不確実性を理解して管理するために不可欠です。
この論文では、サンプル平均 Q 学習と呼ばれる、時間変化するバッチ平均 Q 学習アルゴリズムを紹介します。これは、データの変動性と不確実性をより適切に考慮するために、報酬と次の状態のサンプルを集約することにより、従来の単一サンプル Q 学習を改善します。
関数中心極限定理 (FCLT) を利用して、穏やかな条件下でのサンプル平均アルゴリズムの漸近正規性についての洞察を提供する新しいフレームワークを確立します。
さらに、区間推定のためのランダム スケーリング方法を開発し、追加のハイパーパラメーターを必要とせずに信頼区間の構築を可能にします。
古典的な OpenAI Gym 環境で行われた数値実験では、時変サンプル平均 Q 学習手法が単一サンプルおよび定数バッチ Q 学習手法の両方を常に上回っており、同等の学習速度を維持しながら優れた精度を達成していることが示されています。

要約(オリジナル)

Reinforcement learning (RL) has emerged as a key approach for training agents in complex and uncertain environments. Incorporating statistical inference in RL algorithms is essential for understanding and managing uncertainty in model performance. This paper introduces a time-varying batch-averaged Q-learning algorithm, termed sampleaveraged Q-learning, which improves upon traditional single-sample Q-learning by aggregating samples of rewards and next states to better account for data variability and uncertainty. We leverage the functional central limit theorem (FCLT) to establish a novel framework that provides insights into the asymptotic normality of the sample-averaged algorithm under mild conditions. Additionally, we develop a random scaling method for interval estimation, enabling the construction of confidence intervals without requiring extra hyperparameters. Numerical experiments conducted on classic OpenAI Gym environments show that the time-varying sample-averaged Q-learning method consistently outperforms both single-sample and constant-batch Q-learning methods, achieving superior accuracy while maintaining comparable learning speeds.

arxiv情報

著者 Saunak Kumar Panda,Ruiqi Liu,Yisha Xiang
発行日 2024-10-14 17:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク