No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery

要約

下流のパフォーマンスを向上させるためのトレーニングにどのようなデータや環境を使用するかは、強化学習において長年の非常に話題になっている問題です。
特に、教師なし環境設計 (UED) 手法は、適応型カリキュラムによりエージェントが配布内外のタスクに対して堅牢になるため、最近注目を集めています。
私たちは、現実世界のロボット工学の問題から密接にインスピレーションを得た、新しい設定に適用した場合に、これらの手法自体がどの程度堅牢であるかを尋ねます。
驚くべきことに、最先端の UED 手法はドメイン ランダム化 (DR) の単純なベースラインを改善しないか、そのためには大幅なハイパーパラメータ調整が必要であることがわかりました。
私たちの分析によると、これは、基礎となるスコアリング関数が「学習可能性」の直感的な尺度、つまり、エージェントが時々解決するが常に解決するとは限らない設定を見つけることを予測できないためであることが示されています。
これに基づいて、代わりに学習可能性の高いレベルで直接トレーニングを行い、このシンプルで直感的なアプローチが、私たちのドメインや Minigrid の標準 UED ドメインなど、いくつかのバイナリ結果環境で UED メソッドや DR よりも優れていることがわかりました。
さらに、条件付きリスク値 (CVaR) を厳密に反映して、ロバスト性を直接測定するための新しい敵対的評価手順を導入します。
私たちはすべてのコードをオープンソース化し、最終的なポリシーの視覚化をここで示しています: https://github.com/amacrutherford/sampling-for-learnability。

要約(オリジナル)

What data or environments to use for training to improve downstream performance is a longstanding and very topical question in reinforcement learning. In particular, Unsupervised Environment Design (UED) methods have gained recent attention as their adaptive curricula enable agents to be robust to in- and out-of-distribution tasks. We ask to what extent these methods are themselves robust when applied to a novel setting, closely inspired by a real-world robotics problem. Surprisingly, we find that the state-of-the-art UED methods either do not improve upon the na\'{i}ve baseline of Domain Randomisation (DR), or require substantial hyperparameter tuning to do so. Our analysis shows that this is due to their underlying scoring functions failing to predict intuitive measures of “learnability”, i.e., in finding the settings that the agent sometimes solves, but not always. Based on this, we instead directly train on levels with high learnability and find that this simple and intuitive approach outperforms UED methods and DR in several binary-outcome environments, including on our domain and the standard UED domain of Minigrid. We further introduce a new adversarial evaluation procedure for directly measuring robustness, closely mirroring the conditional value at risk (CVaR). We open-source all our code and present visualisations of final policies here: https://github.com/amacrutherford/sampling-for-learnability.

arxiv情報

著者 Alexander Rutherford,Michael Beukman,Timon Willi,Bruno Lacerda,Nick Hawes,Jakob Foerster
発行日 2024-08-29 14:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク