APART: Diverse Skill Discovery using All Pairs with Ascending Reward and DropouT

要約

私たちは、報酬のない環境での多様なスキル発見を研究し、従来の方法では成功するのに苦労した単純なグリッドワールド環境で可能なすべてのスキルを発見することを目指しています。
この問題は、固有の報酬と、その軌道が与えられたスキルを予測するように訓練された弁別器を使用したスキルの相互訓練として定式化されます。
私たちの最初のソリューションは、標準的な 1 対全 (ソフトマックス) 弁別器を 1 対 1 (全ペア) 弁別器に置き換え、それを新しい固有報酬関数とドロップアウト正則化手法と組み合わせます。
この組み合わせたアプローチは、「APART: 昇順報酬とドロップアウトを備えたすべてのペアを使用した多様なスキル発見」と名付けられています。
私たちは、APART が以前の作品よりも著しく少ないサンプルでグリッドの世界で可能なすべてのスキルを発見することを実証します。
APART の経験的な成功に動機付けられ、VIC を変更し、その固有の報酬を再スケーリングし、ソフトマックス弁別器の温度を調整することにより、最大のスキルを達成するさらに単純なアルゴリズムをさらに調査します。
私たちは、私たちの調査結果が、強化学習におけるスキル発見アルゴリズムの成功の根底にある重要な要因を明らかにすると信じています。

要約(オリジナル)

We study diverse skill discovery in reward-free environments, aiming to discover all possible skills in simple grid-world environments where prior methods have struggled to succeed. This problem is formulated as mutual training of skills using an intrinsic reward and a discriminator trained to predict a skill given its trajectory. Our initial solution replaces the standard one-vs-all (softmax) discriminator with a one-vs-one (all pairs) discriminator and combines it with a novel intrinsic reward function and a dropout regularization technique. The combined approach is named APART: Diverse Skill Discovery using All Pairs with Ascending Reward and Dropout. We demonstrate that APART discovers all the possible skills in grid worlds with remarkably fewer samples than previous works. Motivated by the empirical success of APART, we further investigate an even simpler algorithm that achieves maximum skills by altering VIC, rescaling its intrinsic reward, and tuning the temperature of its softmax discriminator. We believe our findings shed light on the crucial factors underlying success of skill discovery algorithms in reinforcement learning.

arxiv情報

著者 Hadar Schreiber Galler,Tom Zahavy,Guillaume Desjardins,Alon Cohen
発行日 2023-08-24 08:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク