CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies

要約

強化学習は、最適制御問題を解決するためのツールとして大きな関心を集めています。
特定の問題 (タスクまたは環境) を解決するには、最適なポリシーに収束する必要があります。
ただし、動作が大幅に異なる複数の最適なポリシーが存在する場合があります。
たとえば、一部は他のものよりも高速ですが、リスクが大きくなります。
最適政策の分布を考察・研究する。
最適なポリシーをサンプリングできるように、またこれらのポリシーが多様な動作を効果的に採用できるように、好奇心増強メトロポリス アルゴリズム (CAMEO) を設計します。
実験的なシミュレーションでは、CAMEO が実際にすべての古典的な制御問題を解決するポリシーを取得し、まばらな報酬を提供する環境の困難なケースであることを示しています。
さらに、サンプルしたさまざまなポリシーがさまざまなリスク プロファイルを提示し、解釈可能性の興味深い実用的なアプリケーションに対応し、最適なポリシー自体の分布を学習するための最初のステップを表していることを示します。

要約(オリジナル)

Reinforcement Learning has drawn huge interest as a tool for solving optimal control problems. Solving a given problem (task or environment) involves converging towards an optimal policy. However, there might exist multiple optimal policies that can dramatically differ in their behaviour; for example, some may be faster than the others but at the expense of greater risk. We consider and study a distribution of optimal policies. We design a curiosity-augmented Metropolis algorithm (CAMEO), such that we can sample optimal policies, and such that these policies effectively adopt diverse behaviours, since this implies greater coverage of the different possible optimal policies. In experimental simulations we show that CAMEO indeed obtains policies that all solve classic control problems, and even in the challenging case of environments that provide sparse rewards. We further show that the different policies we sample present different risk profiles, corresponding to interesting practical applications in interpretability, and represents a first step towards learning the distribution of optimal policies itself.

arxiv情報

著者 Simo Alami. C,Fernando Llorente,Rim Kaddah,Luca Martino,Jesse Read
発行日 2023-02-15 09:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク