Diverse Projection Ensembles for Distributional Reinforcement Learning

要約

古典的な強化学習とは対照的に、分布型強化学習アルゴリズムは、期待値ではなく収益の分布を学習することを目的としています。
リターン分布の性質は一般に事前に不明であるか、任意に複雑であるため、一般的なアプローチでは、表現可能なパラメトリック分布のセット内で近似値を見つけます。
通常、これには、制約のない分布を単純化された分布のセットに投影することが含まれます。
我々は、この射影ステップはニューラル ネットワークや勾配降下法と組み合わせると強い帰納的バイアスを伴い、それによって学習されたモデルの一般化動作に大きな影響を与えると主張します。
多様性を通じて信頼性の高い不確実性の推定を容易にするために、この研究では、分布アンサンブルにおけるいくつかの異なる投影と表現の組み合わせを研究します。
我々は、このような投影アンサンブルの理論的特性を確立し、平均 $1$-Wasserstein 距離によって測定されるアンサンブルの不一致を深い探索のボーナスとして使用するアルゴリズムを導き出します。
私たちは動作スイートのベンチマークでアルゴリズムを評価し、多様な射影アンサンブルがさまざまなタスクで既存の手法に比べて大幅なパフォーマンスの向上につながり、有向探索問題で最も顕著な向上が見られることがわかりました。

要約(オリジナル)

In contrast to classical reinforcement learning, distributional reinforcement learning algorithms aim to learn the distribution of returns rather than their expected value. Since the nature of the return distribution is generally unknown a priori or arbitrarily complex, a common approach finds approximations within a set of representable, parametric distributions. Typically, this involves a projection of the unconstrained distribution onto the set of simplified distributions. We argue that this projection step entails a strong inductive bias when coupled with neural networks and gradient descent, thereby profoundly impacting the generalization behavior of learned models. In order to facilitate reliable uncertainty estimation through diversity, this work studies the combination of several different projections and representations in a distributional ensemble. We establish theoretical properties of such projection ensembles and derive an algorithm that uses ensemble disagreement, measured by the average $1$-Wasserstein distance, as a bonus for deep exploration. We evaluate our algorithm on the behavior suite benchmark and find that diverse projection ensembles lead to significant performance improvements over existing methods on a wide variety of tasks with the most pronounced gains in directed exploration problems.

arxiv情報

著者 Moritz A. Zanger,Wendelin Böhmer,Matthijs T. J. Spaan
発行日 2023-06-12 13:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク