要約
タイトル:未監督スキル発見のための動作対比学習
要約:
– 強化学習において、未知の報酬を受け取らずに多様なスキルを学ぶことを目的とした未監督スキル発見がある。
– 従来の方法は、状態とスキルの相互情報量(MI)を最大化することでスキルを発見してきたが、このMIの目的は単純で静的なスキルを学び、探索を阻害する恐れがある。
– 本論文では、異なる行動の対比学習による未監督スキル発見方法を提案し、同じスキルに対して似たような行動をとり、異なるスキルに対して多様な行動をとることで、スキルの多様性を導入する。
– 緩い仮定のもとで、同じスキルに基づいて異なる行動の間のMIを最大化することで、従来のMI目的の上限を提供する。
– 同時に、本方法は、状態のエントロピーを暗黙的に増加させることで、より良い状態のカバレッジを得ることができる。
– 本方法は、難解な迷路や連続制御タスクについて評価し、多様かつ広範囲なスキルを生成し、同時に最先端の方法と競合する性能を得たことが示された。
要約(オリジナル)
In reinforcement learning, unsupervised skill discovery aims to learn diverse skills without extrinsic rewards. Previous methods discover skills by maximizing the mutual information (MI) between states and skills. However, such an MI objective tends to learn simple and static skills and may hinder exploration. In this paper, we propose a novel unsupervised skill discovery method through contrastive learning among behaviors, which makes the agent produce similar behaviors for the same skill and diverse behaviors for different skills. Under mild assumptions, our objective maximizes the MI between different behaviors based on the same skill, which serves as an upper bound of the previous MI objective. Meanwhile, our method implicitly increases the state entropy to obtain better state coverage. We evaluate our method on challenging mazes and continuous control tasks. The results show that our method generates diverse and far-reaching skills, and also obtains competitive performance in downstream tasks compared to the state-of-the-art methods.
arxiv情報
著者 | Rushuai Yang,Chenjia Bai,Hongyi Guo,Siyuan Li,Bin Zhao,Zhen Wang,Peng Liu,Xuelong Li |
発行日 | 2023-05-08 06:02:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI