Exploration by self-supervised exploitation

要約

強化学習は、意思決定問題を解決し、あらかじめ設計された報酬関数に従って環境中で行動するようにエージェントを訓練することができる。しかし、このようなアプローチは、報酬がまばらで、エージェントが環境探索中に報酬に出会わない場合、非常に問題となる。このような問題に対する解決策は、エージェントに内発的な動機付けを与えることであり、その動機付けによって、エージェントが外部からの報酬に遭遇する可能性のある探索を行うことができる。新奇性の検出は、内発的動機付け研究の有望な分野の一つである。我々は、自己教師付き学習を用いてターゲットモデルを学習する、新規性指標としての蒸留誤差に基づく内発的動機付けアルゴリズムのクラスである、自己教師付きネットワーク蒸留(Self-supervised Network Distillation: SND)を発表する。我々はこの目的のために3つの既存の自己教師付き手法を適応し、探索が困難とされる10の環境セットで実験的にテストした。その結果、我々のアプローチは、ベースラインモデルと比較して、同じ訓練時間でより速い成長とより高い外部報酬を達成することが示され、これは非常に疎な報酬環境における探索の改善を意味する。

要約(オリジナル)

Reinforcement learning can solve decision-making problems and train an agent to behave in an environment according to a predesigned reward function. However, such an approach becomes very problematic if the reward is too sparse and the agent does not come across the reward during the environmental exploration. The solution to such a problem may be in equipping the agent with an intrinsic motivation, which will provide informed exploration, during which the agent is likely to also encounter external reward. Novelty detection is one of the promising branches of intrinsic motivation research. We present Self-supervised Network Distillation (SND), a class of internal motivation algorithms based on the distillation error as a novelty indicator, where the target model is trained using self-supervised learning. We adapted three existing self-supervised methods for this purpose and experimentally tested them on a set of ten environments that are considered difficult to explore. The results show that our approach achieves faster growth and higher external reward for the same training time compared to the baseline models, which implies improved exploration in a very sparse reward environment.

arxiv情報

著者 Matej Pecháč,Michal Chovanec,Igor Farkaš
発行日 2023-07-03 07:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク