要約
強化学習 (RL) は、多くのドメインの逐次的な意思決定の問題で大きな成功を収めていますが、依然としてデータの非効率性と解釈可能性の欠如という重要な課題に直面しています。
興味深いことに、多くの研究者が最近、因果関係に関する文献からの洞察を活用しており、因果関係のメリットを統一し、強化学習からの課題にうまく対処するための活発な研究を生み出しています。
そのため、これらの因果強化学習 (CRL) の成果を照合し、CRL メソッドのレビューを提供し、因果関係から RL への潜在的な機能を調査することは非常に必要であり、重要です。
特に、因果関係に基づく情報が事前に与えられているかどうかによって、既存の CRL アプローチを 2 つのカテゴリに分類します。
マルコフ決定過程 (MDP)、部分観測マルコフ決定過程 (POMDP)、マルチアーム バンディット (MAB)、動的治療レジーム (DTR) に至るまで、さまざまなモデルの形式化の観点から各カテゴリをさらに分析します。
さらに、CRL の将来の開発の有望な見通しとともに、新たなアプリケーションについて議論しながら、評価マトリックスとオープン ソースを要約します。
要約(オリジナル)
While Reinforcement Learning (RL) achieves tremendous success in sequential decision-making problems of many domains, it still faces key challenges of data inefficiency and the lack of interpretability. Interestingly, many researchers have leveraged insights from the causality literature recently, bringing forth flourishing works to unify the merits of causality and address well the challenges from RL. As such, it is of great necessity and significance to collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL methods, and investigate the potential functionality from causality toward RL. In particular, we divide existing CRL approaches into two categories according to whether their causality-based information is given in advance or not. We further analyze each category in terms of the formalization of different models, ranging from the Markov Decision Process (MDP), Partially Observed Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment Regime (DTR). Moreover, we summarize the evaluation matrices and open sources while we discuss emerging applications, along with promising prospects for the future development of CRL.
arxiv情報
著者 | Yan Zeng,Ruichu Cai,Fuchun Sun,Libo Huang,Zhifeng Hao |
発行日 | 2023-02-27 14:37:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google