Controllability-Aware Unsupervised Skill Discovery

要約

インテリジェント エージェントの重要な機能の 1 つは、外部の監督なしで有用なスキルを発見する機能です。
しかし、現在の教師なしスキル発見方法は、より複雑でやりがいのある行動を発見するインセンティブがないため、多くの場合、シンプルで習得しやすいスキルの習得に限定されています。
監督なしで複雑で制御が難しいスキルを積極的に探す、新しい教師なしスキル発見方法、制御可能性を意識したスキル発見 (CSD) を紹介します。
CSD の重要なコンポーネントは、現在のスキルでは実現が難しい状態遷移に大きな値を割り当てる可制御性を認識する距離関数です。
距離を最大化するスキルの発見と組み合わせることで、CSD はトレーニングの過程でより挑戦的なスキルを徐々に学習します。これは、共同でトレーニングされた距離関数が達成しやすいスキルの報酬を減らすためです。
6つのロボット操作および移動環境での実験結果は、CSDが監視なしでオブジェクト操作や移動スキルを含む多様な複雑なスキルを発見できることを示しており、以前の監視されていないスキル発見方法よりも大幅に優れています。
ビデオとコードは、https://seohong.me/projects/csd/ で入手できます。

要約(オリジナル)

One of the key capabilities of intelligent agents is the ability to discover useful skills without external supervision. However, the current unsupervised skill discovery methods are often limited to acquiring simple, easy-to-learn skills due to the lack of incentives to discover more complex, challenging behaviors. We introduce a novel unsupervised skill discovery method, Controllability-aware Skill Discovery (CSD), which actively seeks complex, hard-to-control skills without supervision. The key component of CSD is a controllability-aware distance function, which assigns larger values to state transitions that are harder to achieve with the current skills. Combined with distance-maximizing skill discovery, CSD progressively learns more challenging skills over the course of training as our jointly trained distance function reduces rewards for easy-to-achieve skills. Our experimental results in six robotic manipulation and locomotion environments demonstrate that CSD can discover diverse complex skills including object manipulation and locomotion skills with no supervision, significantly outperforming prior unsupervised skill discovery methods. Videos and code are available at https://seohong.me/projects/csd/

arxiv情報

著者 Seohong Park,Kimin Lee,Youngwoon Lee,Pieter Abbeel
発行日 2023-02-13 03:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク