Distributional Reinforcement Learning with Unconstrained Monotonic Neural Networks

要約

分布強化学習 (RL) アプローチは、期待値をモデル化するだけでなく、ランダムなリターンの完全な確率分布を表すことを提唱しています。
分布 RL アルゴリズムは、2 つの主要なコンポーネント、つまり、分布の表現とそのパラメータ化、および損失を定義する確率メトリックによって特徴付けることができます。
現在の研究作業では、制約のない単調ニューラル ネットワーク (UMNN) アーキテクチャを検討します。これは、分布のさまざまな表現をモデル化するのに特に適した連続単調関数の普遍的な近似器です。
このプロパティにより、関数近似クラスの効果を確率メトリックの効果から効率的に切り離すことができます。
この研究論文では、最初に、ランダムなリターン分布 (PDF、CDF、および QF) のさまざまな表現を学習するための方法論が紹介されています。
第二に、制約のない単調なディープ Q ネットワーク (UMDQN) と呼ばれる新しい分散 RL アルゴリズムが提示されます。
著者の知る限り、これはランダム リターン分布の 3 つの有効で連続的な表現の学習をサポートする最初の分布 RL メソッドです。
最後に、この新しいアルゴリズムに照らして、3 つの確率準計量、すなわちカルバック ライブラー ダイバージェンス、クラマー距離、およびワッサースタイン距離の間で経験的比較が実行されます。
結果は、ワッサースタイン距離の重要な制限とともに、各確率メトリックに関連する主な長所と短所を強調しています。

要約(オリジナル)

The distributional reinforcement learning (RL) approach advocates for representing the complete probability distribution of the random return instead of only modelling its expectation. A distributional RL algorithm may be characterised by two main components, namely the representation of the distribution together with its parameterisation and the probability metric defining the loss. The present research work considers the unconstrained monotonic neural network (UMNN) architecture, a universal approximator of continuous monotonic functions which is particularly well suited for modelling different representations of a distribution. This property enables the efficient decoupling of the effect of the function approximator class from that of the probability metric. The research paper firstly introduces a methodology for learning different representations of the random return distribution (PDF, CDF and QF). Secondly, a novel distributional RL algorithm named unconstrained monotonic deep Q-network (UMDQN) is presented. To the authors’ knowledge, it is the first distributional RL method supporting the learning of three, valid and continuous representations of the random return distribution. Lastly, in light of this new algorithm, an empirical comparison is performed between three probability quasi-metrics, namely the Kullback-Leibler divergence, Cramer distance, and Wasserstein distance. The results highlight the main strengths and weaknesses associated with each probability metric together with an important limitation of the Wasserstein distance.

arxiv情報

著者 Thibaut Théate,Antoine Wehenkel,Adrien Bolland,Gilles Louppe,Damien Ernst
発行日 2023-03-17 08:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク