要約
汎用エージェントには、幅広いスキルのレパートリーが必要です。
エンパワーメント (スキルと状態の間の最大の相互情報) は、異なるスキルの大規模な集合を学習するための道筋を提供しますが、相互情報を最適化するのは困難です。
新しいフレームワークである階層的エンパワーメントを導入します。これは、目標条件付き階層型強化学習の概念を統合することで、コンピューティングのエンパワーメントをより扱いやすくします。
私たちのフレームワークは 2 つの具体的な貢献をします。
まず、短い期間にわたるエンパワーメントの計算に使用できる相互情報量の新しい変分下限を導入します。
2 番目に、指数関数的に長い時間スケールでエンパワーメントを計算するための階層アーキテクチャを導入します。
一連のシミュレートされたロボット工学タスクにおけるフレームワークの貢献を検証します。
人気のあるアリのナビゲーション ドメインでは、当社の 4 レベルのエージェントは、以前の作業よりも 2 桁以上広い表面積をカバーするスキルを学習できます。
要約(オリジナル)
General purpose agents will require large repertoires of skills. Empowerment — the maximum mutual information between skills and states — provides a pathway for learning large collections of distinct skills, but mutual information is difficult to optimize. We introduce a new framework, Hierarchical Empowerment, that makes computing empowerment more tractable by integrating concepts from Goal-Conditioned Hierarchical Reinforcement Learning. Our framework makes two specific contributions. First, we introduce a new variational lower bound on mutual information that can be used to compute empowerment over short horizons. Second, we introduce a hierarchical architecture for computing empowerment over exponentially longer time scales. We verify the contributions of the framework in a series of simulated robotics tasks. In a popular ant navigation domain, our four level agents are able to learn skills that cover a surface area over two orders of magnitude larger than prior work.
arxiv情報
著者 | Andrew Levy,Sreehari Rammohan,Alessandro Allievi,Scott Niekum,George Konidaris |
発行日 | 2023-10-03 18:24:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google