ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill Discovery

要約

監督なしで利用および適応するための多様で適切な行動を学習することは、知的生物の重要な能力です。
理想的な教師なしスキル発見方法は、外部報酬がない場合でも多様で適格なスキルを生み出すことができ、発見されたスキルセットはさまざまな方法で下流のタスクに効率的に適応できます。
スキルと訪問した状態の間の相互情報 (MI) を最大化すると、理論的には理想的なスキル条件付き行動の抽出を達成できます。
しかし、最近の高度な手法では、実際に行動の質(探索)と多様性(搾取)のバランスをうまくとることは困難であり、これは、厳格な固有報酬設計による不合理な MI 推定に起因する可能性があります。
この論文では、より合理的な MI 推定と動的に重み付けされた本質的報酬を通じて、発見された行動の質と多様性の矛盾を緩和しようとする Contrastive multi-objectives Skill Discovery (ComSD) を提案します。
ComSD は、MI 分解におけるスキル条件付きエントロピーのより合理的な推定のために、対照学習を採用することを提案しています。
さらに、スキルの多様性と品質の両方を向上させるために、さまざまなエントロピー (MI 分解における) 推定を新しい多目的固有報酬に動的にバランスさせる新しい重み付けメカニズムが提案されています。
困難なロボットの動作発見に関して、ComSD は、最近の高度な方法では不可能な、さまざまな活動レベルでの多様な動作から構成される適切なスキル セットを生成できます。
数値評価では、ComSD は最先端の適応パフォーマンスを示し、すべてのスキル組み合わせタスクとほとんどのスキル微調整タスクにわたって、最近の高度なスキル発見手法を大幅に上回っています。
コードは https://github.com/liuxin0824/ComSD でリリースされます。

要約(オリジナル)

Learning diverse and qualified behaviors for utilization and adaptation without supervision is a key ability of intelligent creatures. Ideal unsupervised skill discovery methods are able to produce diverse and qualified skills in the absence of extrinsic reward, while the discovered skill set can efficiently adapt to downstream tasks in various ways. Maximizing the Mutual Information (MI) between skills and visited states can achieve ideal skill-conditioned behavior distillation in theory. However, it’s difficult for recent advanced methods to well balance behavioral quality (exploration) and diversity (exploitation) in practice, which may be attributed to the unreasonable MI estimation by their rigid intrinsic reward design. In this paper, we propose Contrastive multi-objectives Skill Discovery (ComSD) which tries to mitigate the quality-versus-diversity conflict of discovered behaviors through a more reasonable MI estimation and a dynamically weighted intrinsic reward. ComSD proposes to employ contrastive learning for a more reasonable estimation of skill-conditioned entropy in MI decomposition. In addition, a novel weighting mechanism is proposed to dynamically balance different entropy (in MI decomposition) estimations into a novel multi-objective intrinsic reward, to improve both skill diversity and quality. For challenging robot behavior discovery, ComSD can produce a qualified skill set consisting of diverse behaviors at different activity levels, which recent advanced methods cannot. On numerical evaluations, ComSD exhibits state-of-the-art adaptation performance, significantly outperforming recent advanced skill discovery methods across all skill combination tasks and most skill finetuning tasks. Codes will be released at https://github.com/liuxin0824/ComSD.

arxiv情報

著者 Xin Liu,Yaran Chen,Dongbin Zhao
発行日 2023-09-29 12:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク