要約
インテリジェント エージェントの特徴は、環境との監視されていない対話から純粋に再利用可能なスキルを学習できることです。
ただし、既存の教師なしスキル発見手法では、1 つのスキル変数が環境内の多くのエンティティに同時に影響を与える、複雑なスキルを学習することが多く、下流のスキル連鎖が非常に困難になります。
私たちは、下流のタスクを解決するために効率的に再利用できる、もつれを解くスキルを学習する方法である、解き放たれた教師なしスキル発見 (DUSDi) を提案します。
DUSDi はスキルを分解されたコンポーネントに分解します。各スキル コンポーネントは状態空間の 1 つの要素にのみ影響します。
重要なのは、これらのスキルコンポーネントを同時に構成して低レベルのアクションを生成し、階層的な強化学習を通じて下流のタスクに取り組むために効率的に連鎖させることができることです。
DUSDi は、異なるスキルコンポーネントの影響間の絡み合いを強制的に解消するための新しい相互情報ベースの目標を定義し、値因数分解を利用してこの目標を効率的に最適化します。
一連の困難な環境で評価された DUSDi は、もつれのないスキルを学習することに成功し、学習したスキルを下流のタスクを解決するために適用することに関して、以前のスキル発見方法を大幅に上回りました。
コードとスキルの視覚化 (jiahenghu.github.io/DUSDi-site/)。
要約(オリジナル)
A hallmark of intelligent agents is the ability to learn reusable skills purely from unsupervised interaction with the environment. However, existing unsupervised skill discovery methods often learn entangled skills where one skill variable simultaneously influences many entities in the environment, making downstream skill chaining extremely challenging. We propose Disentangled Unsupervised Skill Discovery (DUSDi), a method for learning disentangled skills that can be efficiently reused to solve downstream tasks. DUSDi decomposes skills into disentangled components, where each skill component only affects one factor of the state space. Importantly, these skill components can be concurrently composed to generate low-level actions, and efficiently chained to tackle downstream tasks through hierarchical Reinforcement Learning. DUSDi defines a novel mutual-information-based objective to enforce disentanglement between the influences of different skill components, and utilizes value factorization to optimize this objective efficiently. Evaluated in a set of challenging environments, DUSDi successfully learns disentangled skills, and significantly outperforms previous skill discovery methods when it comes to applying the learned skills to solve downstream tasks. Code and skills visualization at jiahenghu.github.io/DUSDi-site/.
arxiv情報
著者 | Jiaheng Hu,Zizhao Wang,Peter Stone,Roberto Martín-Martín |
発行日 | 2024-10-15 04:13:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google