A Robust Quantile Huber Loss With Interpretable Parameter Adjustment In Distributional Reinforcement Learning

要約

分布強化学習 (RL) は、主に分位フーバー損失関数の最小化を介して分位値を学習することによってリターン分布を推定します。これには、多くの場合ヒューリスティックに選択される、またはハイパーパラメータ検索を介して選択されるしきい値パラメータが伴いますが、これは一般化が不十分で、最適ではない可能性があります。
この論文では、ガウス分布間のワッサーシュタイン距離 (WD) 計算から導出された一般化された分位フーバー損失関数を紹介し、予測 (現在の) 分位値と目標 (ベルマン更新) 分位値のノイズを捕捉します。
従来の分位フーバー損失と比較して、この革新的な損失関数は外れ値に対する堅牢性を強化します。
特に、古典的なフーバー損失関数は、私たちが提案する損失の近似値と見なすことができ、学習プロセス中にデータ内のノイズの量を近似することによってパラメータ調整を可能にします。
分散型 RL の一般的なアプリケーションである Atari ゲーム、および分散型 RL を使用した最近のヘッジ戦略に関する実証テストにより、提案した損失関数の有効性と分散型 RL におけるパラメーター調整の可能性が検証されます。

要約(オリジナル)

Distributional Reinforcement Learning (RL) estimates return distribution mainly by learning quantile values via minimizing the quantile Huber loss function, entailing a threshold parameter often selected heuristically or via hyperparameter search, which may not generalize well and can be suboptimal. This paper introduces a generalized quantile Huber loss function derived from Wasserstein distance (WD) calculation between Gaussian distributions, capturing noise in predicted (current) and target (Bellman-updated) quantile values. Compared to the classical quantile Huber loss, this innovative loss function enhances robustness against outliers. Notably, the classical Huber loss function can be seen as an approximation of our proposed loss, enabling parameter adjustment by approximating the amount of noise in the data during the learning process. Empirical tests on Atari games, a common application in distributional RL, and a recent hedging strategy using distributional RL, validate the effectiveness of our proposed loss function and its potential for parameter adjustments in distributional RL.

arxiv情報

著者 Parvin Malekzadeh,Konstantinos N. Plataniotis,Zissis Poulos,Zeyu Wang
発行日 2024-01-04 15:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク