Risk-Aware Reinforcement Learning through Optimal Transport Theory

要約

強化学習 (RL) が動作する動的で不確実な環境では、信頼性の高い意思決定を確保するためにリスク管理が重要な要素になります。
従来の RL アプローチは、報酬の最適化には効果的ですが、潜在的なリスクの状況を見落としがちです。
これに応えて、この文書では、最適輸送 (OT) 理論と RL の統合を先駆けて行い、リスクを認識したフレームワークを作成します。
私たちのアプローチは目的関数を変更し、結果として得られる政策が期待される報酬を最大化するだけでなく、州の訪問分布と望ましいリスクプロファイルの間の OT 距離によって決まるリスク制約も尊重するようにします。
OT の数学的精度を活用することで、従来の RL 目標と並行してリスクの考慮事項を高める定式化を提供します。
私たちの貢献は、リスク分布、最適価値関数、政策行動の間の関係をマッピングする一連の定理によって実証されています。
この研究は、OT のレンズを通して、RL の有望な方向性を明らかにし、報酬の追求とリスク認識のバランスの取れた融合を保証します。

要約(オリジナル)

In the dynamic and uncertain environments where reinforcement learning (RL) operates, risk management becomes a crucial factor in ensuring reliable decision-making. Traditional RL approaches, while effective in reward optimization, often overlook the landscape of potential risks. In response, this paper pioneers the integration of Optimal Transport (OT) theory with RL to create a risk-aware framework. Our approach modifies the objective function, ensuring that the resulting policy not only maximizes expected rewards but also respects risk constraints dictated by OT distances between state visitation distributions and the desired risk profiles. By leveraging the mathematical precision of OT, we offer a formulation that elevates risk considerations alongside conventional RL objectives. Our contributions are substantiated with a series of theorems, mapping the relationships between risk distributions, optimal value functions, and policy behaviors. Through the lens of OT, this work illuminates a promising direction for RL, ensuring a balanced fusion of reward pursuit and risk awareness.

arxiv情報

著者 Ali Baheri
発行日 2023-09-12 13:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク