要約
Rehnection Learning(RL)は、環境との相互作用を通じて、教育エージェントの意思決定に焦点を当てた人工知能の広く研究されている領域です。
重要なサブセットには、確率的マルチアライムバンディット(MAB)と連続装甲盗賊(SCAB)の問題が含まれ、不確実性の下でのシーケンシャルな意思決定をモデル化します。
このレビューでは、盗賊問題の基礎モデルと仮定の概要を示し、濃度の不平等やミニマックスの後悔の境界などの非矛盾のある理論的ツールを調査し、探査と搾取のトレードオフを管理するための頻繁なアルゴリズムとベイジアンアルゴリズムを比較します。
さらに、Kでっている文脈的盗賊とかさぶたを探索し、その方法論と後悔の分析に焦点を当てています。
また、SCABの問題と機能データ分析の間の接続を調べます。
最後に、現場での最近の進歩と継続的な課題を強調します。
要約(オリジナル)
Reinforcement Learning (RL) is a widely researched area in artificial intelligence that focuses on teaching agents decision-making through interactions with their environment. A key subset includes stochastic multi-armed bandit (MAB) and continuum-armed bandit (SCAB) problems, which model sequential decision-making under uncertainty. This review outlines the foundational models and assumptions of bandit problems, explores non-asymptotic theoretical tools like concentration inequalities and minimax regret bounds, and compares frequentist and Bayesian algorithms for managing exploration-exploitation trade-offs. Additionally, we explore K-armed contextual bandits and SCAB, focusing on their methodologies and regret analyses. We also examine the connections between SCAB problems and functional data analysis. Finally, we highlight recent advances and ongoing challenges in the field.
arxiv情報
著者 | Pengjie Zhou,Haoyu Wei,Huiming Zhang |
発行日 | 2025-02-18 17:42:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google