Contextualize Me — The Case for Context in Reinforcement Learning

要約

強化学習(RL)は、複雑化する問題を解決するために大きな進歩を遂げましたが、多くのアルゴリズムは、わずかな環境の変化にも脆いのが現状です。文脈強化学習(cRL)は、このような変化を原理的にモデル化するフレームワークを提供し、柔軟かつ正確で解釈可能なタスクの指定と生成を可能にします。我々の目標は、cRLのフレームワークが、有意義なベンチマークと汎化タスクに関する構造化された推論を通じて、RLにおけるゼロショット汎化の改善にいかに貢献するかを示すことである。cRLにおける最適な動作には、他の関連分野である部分観測可能性と同様に、コンテキスト情報が必要であるという洞察を確認する。このことをcRLの枠組みで実証的に検証するために、一般的なRL環境のコンテキストを拡張した様々なバージョンを提供します。これらは、一般的なベンチマークのcRL拡張に基づく汎化のために設計された最初のベンチマークライブラリ「CARL」の一部であり、一般エージェントをさらに研究するためのテストベッドとして提案します。我々は、文脈の設定において、単純なRL環境でさえも困難になること、そして、複雑な文脈空間を一般化するには、素朴な解決策では十分ではないことを示す。

要約(オリジナル)

While Reinforcement Learning ( RL) has made great strides towards solving increasingly complicated problems, many algorithms are still brittle to even slight environmental changes. Contextual Reinforcement Learning (cRL) provides a framework to model such changes in a principled manner, thereby enabling flexible, precise and interpretable task specification and generation. Our goal is to show how the framework of cRL contributes to improving zero-shot generalization in RL through meaningful benchmarks and structured reasoning about generalization tasks. We confirm the insight that optimal behavior in cRL requires context information, as in other related areas of partial observability. To empirically validate this in the cRL framework, we provide various context-extended versions of common RL environments. They are part of the first benchmark library, CARL, designed for generalization based on cRL extensions of popular benchmarks, which we propose as a testbed to further study general agents. We show that in the contextual setting, even simple RL environments become challenging – and that naive solutions are not enough to generalize across complex context spaces.

arxiv情報

著者 Carolin Benjamins,Theresa Eimer,Frederik Schubert,Aditya Mohan,Sebastian Döhler,André Biedenkapp,Bodo Rosenhahn,Frank Hutter,Marius Lindauer
発行日 2023-06-02 15:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク