Unsupervised Discovery of Continuous Skills on a Sphere

要約

近年、教師なし強化学習として、外部報酬なしに多様な行動を生成するための多様なスキルを学習する手法の研究が盛んに行われています。
しかし、既存の手法の多くは有限個の個別スキルを学習するため、学習したスキルで発揮できる行動の種類は限られています。
この論文では、潜在的に無限の数の異なるスキルを学習するための新しい方法を提案します。これは、Discovery of Continuous Skills on a Sphere (DISCS) と名付けられています。
DISCSでは、スキルと状態の相互情報量を最大化することでスキルを学習し、各スキルは球上の連続値に対応します。
DISCS ではスキルの表現が連続しているため、無限に多様なスキルを学習することができます。
MuJoCo Ant ロボット制御環境における既存の手法と DISCS を検証し、DISCS が他の手法よりもはるかに多様なスキルを学習できることを示します。

要約(オリジナル)

Recently, methods for learning diverse skills to generate various behaviors without external rewards have been actively studied as a form of unsupervised reinforcement learning. However, most of the existing methods learn a finite number of discrete skills, and thus the variety of behaviors that can be exhibited with the learned skills is limited. In this paper, we propose a novel method for learning potentially an infinite number of different skills, which is named discovery of continuous skills on a sphere (DISCS). In DISCS, skills are learned by maximizing mutual information between skills and states, and each skill corresponds to a continuous value on a sphere. Because the representations of skills in DISCS are continuous, infinitely diverse skills could be learned. We examine existing methods and DISCS in the MuJoCo Ant robot control environments and show that DISCS can learn much more diverse skills than the other methods.

arxiv情報

著者 Takahisa Imagawa,Takuya Hiraoka,Yoshimasa Tsuruoka
発行日 2023-05-25 12:02:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク