要約
さまざまなスキルを実行できるため、エージェントの探索が促進されます。
この作業では、状態空間を均一にカバーする多様なスキルのセットを構築することを目的としています。
我々は、状態とスキルの間の相互情報に基づいた以前の定義に基づいて、多様なスキルの検索を形式化することを提案します。
各スキルを条件としたポリシーによって到達する状態の分布を考慮し、後続状態の測定を活用してこれらのスキル分布間の差異を最大化します。
私たちはこのアプローチを「LEADS: 後継国家を通じて多様なスキルを学ぶ」と呼んでいます。
一連の迷路ナビゲーションおよびロボット制御タスクに対するアプローチを実証します。これは、報酬や探索ボーナスに依存せずに状態空間を徹底的にカバーする多様なスキルのセットを構築できることを示しています。
私たちの調査結果は、この新しい形式化が相互情報の最大化と探索ボーナスを組み合わせることで、より堅牢で効率的な探索を促進することを示しています。
要約(オリジナル)
The ability to perform different skills can encourage agents to explore. In this work, we aim to construct a set of diverse skills which uniformly cover the state space. We propose a formalization of this search for diverse skills, building on a previous definition based on the mutual information between states and skills. We consider the distribution of states reached by a policy conditioned on each skill and leverage the successor state measure to maximize the difference between these skill distributions. We call this approach LEADS: Learning Diverse Skills through Successor States. We demonstrate our approach on a set of maze navigation and robotic control tasks which show that our method is capable of constructing a diverse set of skills which exhaustively cover the state space without relying on reward or exploration bonuses. Our findings demonstrate that this new formalization promotes more robust and efficient exploration by combining mutual information maximization and exploration bonuses.
arxiv情報
著者 | Paul-Antoine Le Tolguenec,Yann Besse,Florent Teichteil-Konigsbuch,Dennis G. Wilson,Emmanuel Rachelson |
発行日 | 2024-06-14 15:36:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google