要約
強化学習 (RL) は、さまざまな応用分野や理論的研究にわたって大きな注目を集めています。
RL 理論に関する既存の文献は主に、意思決定者が期待される累積報酬を最大化する方法を学ぶリスク中立の設定に焦点を当てています。
しかし、ポートフォリオ管理や電子商取引の推奨などの実際のシナリオでは、意思決定者は結果の不確実性を考慮して異質なリスク選好を固執することが多く、リスクニューラルフレームワークではうまく捉えることができません。
これらの優先順位を組み込むことは、効用理論を通じてアプローチすることができますが、一般的な効用関数の下でのリスクに敏感な RL の開発は、依然として理論的探求の未解決の問題です。
この論文では、意思決定者がマルコフ意思決定プロセス (MDP) の枠組みで累積報酬の一般効用関数を最適化しようとするシナリオを検討します。
動的計画原理とベルマン方程式を容易にするために、累積報酬を考慮した追加次元で状態空間を拡大します。
我々は、拡張された状態空間の下でMDPへの離散化近似スキームを提案します。これは扱いやすく、アルゴリズム設計の鍵となります。
次に、累積報酬の空間に対するイプシロンカバーを使用する修正値反復アルゴリズムを提案します。
シミュレーターにアクセスできる場合、アルゴリズムはサンプルの複雑さが保証された最適に近いポリシーを効率的に学習します。
シミュレーターがない場合、信頼限界の上限探索アプローチで設計されたアルゴリズムは、保証されたリグレス限界を確保しながら、最適に近いポリシーを特定します。
どちらのアルゴリズムでも、リスク中立設定の理論的な下限に一致します。
要約(オリジナル)
Reinforcement Learning (RL) has gained substantial attention across diverse application domains and theoretical investigations. Existing literature on RL theory largely focuses on risk-neutral settings where the decision-maker learns to maximize the expected cumulative reward. However, in practical scenarios such as portfolio management and e-commerce recommendations, decision-makers often persist in heterogeneous risk preferences subject to outcome uncertainties, which can not be well-captured by the risk-neural framework. Incorporating these preferences can be approached through utility theory, yet the development of risk-sensitive RL under general utility functions remains an open question for theoretical exploration. In this paper, we consider a scenario where the decision-maker seeks to optimize a general utility function of the cumulative reward in the framework of a Markov decision process (MDP). To facilitate the Dynamic Programming Principle and Bellman equation, we enlarge the state space with an additional dimension that accounts for the cumulative reward. We propose a discretized approximation scheme to the MDP under enlarged state space, which is tractable and key for algorithmic design. We then propose a modified value iteration algorithm that employs an epsilon-covering over the space of cumulative reward. When a simulator is accessible, our algorithm efficiently learns a near-optimal policy with guaranteed sample complexity. In the absence of a simulator, our algorithm, designed with an upper-confidence-bound exploration approach, identifies a near-optimal policy while ensuring a guaranteed regret bound. For both algorithms, we match the theoretical lower bounds for the risk-neutral setting.
arxiv情報
著者 | Zhengqi Wu,Renyuan Xu |
発行日 | 2023-11-22 18:50:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google