要約
ほとんどの強化学習アルゴリズムは、アルゴリズムが動作するコンテキストを、静止した、隔離された、邪魔のない環境として扱います。
しかし、現実の世界では、さまざまな外部影響により環境は常に変化しています。
この問題に対処するために、外部の時間的プロセスの影響下でマルコフ決定プロセス (MDP) を研究します。
私たちはこの概念を形式化し、適切な解決策によって問題が対処可能になる条件について議論します。
我々は、この問題を解決し、そのパフォーマンスを理論的に分析するためのポリシー反復アルゴリズムを提案します。
要約(オリジナル)
Most reinforcement learning algorithms treat the context under which they operate as a stationary, isolated and undisturbed environment. However, in the real world, the environment is constantly changing due to a variety of external influences. To address this problem, we study Markov Decision Processes (MDP) under the influence of an external temporal process. We formalize this notion and discuss conditions under which the problem becomes tractable with suitable solutions. We propose a policy iteration algorithm to solve this problem and theoretically analyze its performance.
arxiv情報
著者 | Ranga Shaarad Ayyagari,Ambedkar Dukkipati |
発行日 | 2023-05-25 13:38:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google