要約
強化学習の主な目標は、リスクや安全性を考慮せずに最適なパフォーマンスを優先する意思決定ポリシーを開発することです。
対照的に、安全な強化学習は、安全でない状態を緩和または回避することを目的としています。
この論文では、最適輸送理論を活用してエージェントの安全性を強化する、リスクに敏感な Q 学習アルゴリズムを紹介します。
最適な輸送を Q ラーニング フレームワークに統合することで、私たちのアプローチは、保険の定常分布と、分野の専門家による安全性の好みをカプセル化した事前定義されたリスク分布の間のワッサーシュタイン距離を最小限に抑えながら、保険の期待収益を最適化することを目指します。
提案されたアルゴリズムを Gridworld 環境で検証します。
結果は、従来の Q 学習アルゴリズムと比較して、私たちの方法が危険な状態への訪問頻度を大幅に減らし、安定したポリシーへのより迅速な収束を達成することを示しています。
要約(オリジナル)
The primary goal of reinforcement learning is to develop decision-making policies that prioritize optimal performance without considering risk or safety. In contrast, safe reinforcement learning aims to mitigate or avoid unsafe states. This paper presents a risk-sensitive Q-learning algorithm that leverages optimal transport theory to enhance the agent safety. By integrating optimal transport into the Q-learning framework, our approach seeks to optimize the policy’s expected return while minimizing the Wasserstein distance between the policy’s stationary distribution and a predefined risk distribution, which encapsulates safety preferences from domain experts. We validate the proposed algorithm in a Gridworld environment. The results indicate that our method significantly reduces the frequency of visits to risky states and achieves faster convergence to a stable policy compared to the traditional Q-learning algorithm.
arxiv情報
著者 | Zahra Shahrooei,Ali Baheri |
発行日 | 2024-06-17 17:32:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google