Exploration by self-supervised exploitation

要約

強化学習は、意思決定の問題を解決し、事前に設計された報酬関数に従って環境で行動するようにエージェントをトレーニングできます。
ただし、報酬がまばらすぎてエージェントが環境探索中に報酬に遭遇しない場合、このようなアプローチは非常に問題になります。
このような問題の解決策は、エージェントに内発的な動機を与えることである可能性があります。これにより、情報に基づいた探索が可能になり、エージェントは外部報酬にも遭遇する可能性があります。
ノベルティの検出は、内発的動機付け研究の有望な分野の 1 つです。
自己教師ありネットワーク蒸留 (SND) を提示します。これは、自己教師あり学習を使用してターゲット モデルがトレーニングされる、蒸留エラーに基づく内部動機付けアルゴリズムのクラスです。
この目的のために 3 つの既存の自己教師ありメソッドを採用し、調査が難しいと考えられる 10 個の環境のセットで実験的にテストしました。
結果は、私たちのアプローチが、ベースライン モデルと比較して、同じトレーニング時間でより速い成長とより高い外部報酬を達成することを示しています。これは、非常にまばらな報酬環境での探索の改善を意味します。

要約(オリジナル)

Reinforcement learning can solve decision-making problems and train an agent to behave in an environment according to a predesigned reward function. However, such an approach becomes very problematic if the reward is too sparse and the agent does not come across the reward during the environmental exploration. The solution to such a problem may be in equipping the agent with an intrinsic motivation, which will provide informed exploration, during which the agent is likely to also encounter external reward. Novelty detection is one of the promising branches of intrinsic motivation research. We present Self-supervised Network Distillation (SND), a class of internal motivation algorithms based on the distillation error as a novelty indicator, where the target model is trained using self-supervised learning. We adapted three existing self-supervised methods for this purpose and experimentally tested them on a set of ten environments that are considered difficult to explore. The results show that our approach achieves faster growth and higher external reward for the same training time compared to the baseline models, which implies improved exploration in a very sparse reward environment.

arxiv情報

著者 Matej Pecháč,Michal Chovanec,Igor Farkaš
発行日 2023-02-22 18:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク