要約
教師なしスキル発見 (USD) の分野では、主にスキルが初期軌道から逸脱した場合に多額のペナルティが課せられるため、探索が制限されることが大きな課題となっています。
探索を強化するために、最近の方法論では補助的な報酬を採用して、状態の認識論的不確実性またはエントロピーを最大化しています。
しかし、環境の複雑さが増すにつれて、これらの報酬の有効性が低下することがわかっています。
そこで、我々は、新しい USD アルゴリズム、ガイダンス付きスキル発見 (DISCO-DANCE) を提案します。このアルゴリズムは、(1) 未開拓の状態に到達する可能性が最も高いガイド スキルを選択し、(2) 他のスキルがガイド スキルに従うようにガイドします。
3) 未踏の状態での識別性を最大化するために、ガイド付きスキルが分散されます。
経験的評価により、DISCO-DANCE は 2 つのナビゲーション ベンチマークと連続制御ベンチマークを含む、困難な環境において他の USD ベースラインよりも優れたパフォーマンスを発揮することが実証されています。
DISCO-DANCE の定性的な視覚化とコードは、https://mynsng.github.io/discodance で入手できます。
要約(オリジナル)
In the field of unsupervised skill discovery (USD), a major challenge is limited exploration, primarily due to substantial penalties when skills deviate from their initial trajectories. To enhance exploration, recent methodologies employ auxiliary rewards to maximize the epistemic uncertainty or entropy of states. However, we have identified that the effectiveness of these rewards declines as the environmental complexity rises. Therefore, we present a novel USD algorithm, skill discovery with guidance (DISCO-DANCE), which (1) selects the guide skill that possesses the highest potential to reach unexplored states, (2) guides other skills to follow guide skill, then (3) the guided skills are dispersed to maximize their discriminability in unexplored states. Empirical evaluation demonstrates that DISCO-DANCE outperforms other USD baselines in challenging environments, including two navigation benchmarks and a continuous control benchmark. Qualitative visualizations and code of DISCO-DANCE are available at https://mynsng.github.io/discodance.
arxiv情報
著者 | Hyunseung Kim,Byungkun Lee,Hojoon Lee,Dongyoon Hwang,Sejik Park,Kyushik Min,Jaegul Choo |
発行日 | 2023-11-01 13:55:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google