要約
安全な強化学習は、強化学習 (RL) エージェントによる危険な状況の緩和または回避を扱います。
安全な RL アプローチは、特定の問題またはドメインに対する特定のリスク表現に基づいています。
エージェントの動作を分析し、安全な RL アプローチを比較し、アプリケーション ドメイン間で技術を効果的に転送するには、安全な RL の問題に特有のリスクの種類を理解する必要があります。
私たちは、安全なRLにおけるリスクを特徴付けることを目的として、体系的な文献マッピングを実行しました。
得られた結果に基づいて、複数のアプリケーションドメインに存在するリスクの定義、特徴、種類を示します。
当社の文献マッピングは、RL アプローチがリスク表現と管理を重視するさまざまな知識分野 (AI、金融、エンジニアリング、医学) の過去 5 年間 (2017 年から 2022 年) の文献をカバーしています。
私たちのマッピングは、このテーマに関する数千を超える論文から体系的にフィルタリングされた 72 の論文をカバーしています。
私たちが提案するリスクの概念は、さまざまな表現、規律の違い、一般的なトレーニング演習、およびテクニックの種類をカバーしています。
私たちは研究者に対し、このマッピングを開始点として使用し、将来の安全な RL 研究報告書にリスクの明示的かつ詳細な説明を含めることを推奨します。
この情報を利用して、研究者や実務者は、さまざまな問題に対する手法の有効性について、より強力な結論を引き出すことができます。
要約(オリジナル)
Safe reinforcement learning deals with mitigating or avoiding unsafe situations by reinforcement learning (RL) agents. Safe RL approaches are based on specific risk representations for particular problems or domains. In order to analyze agent behaviors, compare safe RL approaches, and effectively transfer techniques between application domains, it is necessary to understand the types of risk specific to safe RL problems. We performed a systematic literature mapping with the objective to characterize risk in safe RL. Based on the obtained results, we present definitions, characteristics, and types of risk that hold on multiple application domains. Our literature mapping covers literature from the last 5 years (2017-2022), from a variety of knowledge areas (AI, finance, engineering, medicine) where RL approaches emphasize risk representation and management. Our mapping covers 72 papers filtered systematically from over thousands of papers on the topic. Our proposed notion of risk covers a variety of representations, disciplinary differences, common training exercises, and types of techniques. We encourage researchers to include explicit and detailed accounts of risk in future safe RL research reports, using this mapping as a starting point. With this information, researchers and practitioners could draw stronger conclusions on the effectiveness of techniques on different problems.
arxiv情報
著者 | Leonardo Villalobos-Arias,Derek Martin,Abhijeet Krishnan,Madeleine Gagné,Colin M. Potts,Arnav Jhala |
発行日 | 2023-12-08 18:26:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google