Risk-Averse Reinforcement Learning with Itakura-Saito Loss

要約

リスク回避補強学習は、さまざまなハイステークス分野で適用されます。
期待収益を最大化することを目的とする古典的な強化学習とは異なり、リスク回避エージェントは、リスクを最小限に抑えるポリシーを選択し、時には期待値を犠牲にします。
これらの好みは、ユーティリティ理論を通じてフレーム化できます。
私たちは、ベルマン方程式を導き出し、ほとんど変更を加えてさまざまな強化学習アルゴリズムを採用できる指数効用関数の特定のケースに焦点を当てています。
ただし、これらの方法は、プロセス全体の指数計算が必要なため、数値の不安定性に悩まされています。
これに対処するために、状態価値とアクション価値関数を学習するための伊藤皮 – 皮の発散に基づいて、数値的に安定した数学的に健全な損失関数を導入します。
理論的および経験的に、確立された代替案に対して提案された損失関数を評価します。
実験セクションでは、既知の分析ソリューションを備えた複数の財務シナリオを調査し、損失関数が代替案よりも優れていることを示します。

要約(オリジナル)

Risk-averse reinforcement learning finds application in various high-stakes fields. Unlike classical reinforcement learning, which aims to maximize expected returns, risk-averse agents choose policies that minimize risk, occasionally sacrificing expected value. These preferences can be framed through utility theory. We focus on the specific case of the exponential utility function, where we can derive the Bellman equations and employ various reinforcement learning algorithms with few modifications. However, these methods suffer from numerical instability due to the need for exponent computation throughout the process. To address this, we introduce a numerically stable and mathematically sound loss function based on the Itakura-Saito divergence for learning state-value and action-value functions. We evaluate our proposed loss function against established alternatives, both theoretically and empirically. In the experimental section, we explore multiple financial scenarios, some with known analytical solutions, and show that our loss function outperforms the alternatives.

arxiv情報

著者 Igor Udovichenko,Olivier Croissant,Anita Toleutaeva,Evgeny Burnaev,Alexander Korotin
発行日 2025-05-22 17:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク