Controllability-Aware Unsupervised Skill Discovery

要約

インテリジェント エージェントの重要な機能の 1 つは、外部の監督なしで有用なスキルを発見できることです。
しかし、現在の教師なしスキル発見方法は、より複雑で挑戦的な行動を発見するインセンティブが欠如しているため、多くの場合、単純で習得しやすいスキルの習得に限定されています。
複雑で制御が難しいスキルを監督なしで積極的に探索する、新しい教師なしスキル発見手法である Controllability-aware Skill Discovery (CSD) を紹介します。
CSD の主要なコンポーネントは、制御性を意識した距離関数であり、現在のスキルでは達成が難しい状態遷移に大きな値を割り当てます。
距離を最大化するスキル発見と組み合わせると、CSD は、共同トレーニングされた距離関数により、達成しやすいスキルに対する報酬が減額されるため、トレーニングの過程でより困難なスキルを徐々に学習します。
6 つのロボット操作および移動環境における私たちの実験結果は、CSD が監視なしでオブジェクト操作や移動スキルを含む多様で複雑なスキルを発見できることを示しており、これまでの教師なしスキル発見方法を大幅に上回っています。
ビデオとコードは https://seohong.me/projects/csd/ で入手できます。

要約(オリジナル)

One of the key capabilities of intelligent agents is the ability to discover useful skills without external supervision. However, the current unsupervised skill discovery methods are often limited to acquiring simple, easy-to-learn skills due to the lack of incentives to discover more complex, challenging behaviors. We introduce a novel unsupervised skill discovery method, Controllability-aware Skill Discovery (CSD), which actively seeks complex, hard-to-control skills without supervision. The key component of CSD is a controllability-aware distance function, which assigns larger values to state transitions that are harder to achieve with the current skills. Combined with distance-maximizing skill discovery, CSD progressively learns more challenging skills over the course of training as our jointly trained distance function reduces rewards for easy-to-achieve skills. Our experimental results in six robotic manipulation and locomotion environments demonstrate that CSD can discover diverse complex skills including object manipulation and locomotion skills with no supervision, significantly outperforming prior unsupervised skill discovery methods. Videos and code are available at https://seohong.me/projects/csd/

arxiv情報

著者 Seohong Park,Kimin Lee,Youngwoon Lee,Pieter Abbeel
発行日 2023-06-03 23:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク