Balancing Both Behavioral Quality and Diversity in Unsupervised Skill Discovery

要約

この研究は出版の可能性を求めて IEEE に提出されました。
著作権は予告なく譲渡される場合があり、その後、このバージョンにアクセスできなくなる場合があります。
教師なしスキル発見は、外部報酬なしで多様で探索的なスキルを発掘することを目的としており、発見されたスキルはさまざまな方法で複数の下流タスクに効率的に適応します。
しかし、最近の高度な手法は、特にエージェントのダイナミクスが複雑で潜在的なスキルを識別するのが難しい場合(ロボットの行動の発見など)、行動の探索と多様性のバランスをとるのに苦労しています。
この論文では、新しい内発的インセンティブを通じて探索的で多様な行動を発見する \textbf{Co}ntrastive \textbf{m}ulti-objective \textbf{S}kill \textbf{D}iscovery \textbf{(ComSD)} を提案します。
、対照的な多目的報酬と名付けられました。
これには、エージェントが既存のスキルを効果的に識別できるようにするための対照学習に基づく新しい多様性報酬と、新しい行動にアクセスして学習するための粒子ベースの探索報酬が含まれています。
さらに、多様性と探索のバランスを図るために、上記 2 つの報酬間の新しい動的重み付けメカニズムが提案されており、これにより行動の質がさらに向上します。
広範な実験と分析により、ComSD が複雑な多関節ロボットのさまざまな探索レベルで多様な動作を生成できることが実証され、32 の困難な下流適応タスクにわたって、最近の高度な手法では不可能な最先端のパフォーマンスが可能になります。
コードは公開後に公開されます。

要約(オリジナル)

This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. Unsupervised skill discovery seeks to dig out diverse and exploratory skills without extrinsic reward, with the discovered skills efficiently adapting to multiple downstream tasks in various ways. However, recent advanced methods struggle to well balance behavioral exploration and diversity, particularly when the agent dynamics are complex and potential skills are hard to discern (e.g., robot behavior discovery). In this paper, we propose \textbf{Co}ntrastive \textbf{m}ulti-objective \textbf{S}kill \textbf{D}iscovery \textbf{(ComSD)} which discovers exploratory and diverse behaviors through a novel intrinsic incentive, named contrastive multi-objective reward. It contains a novel diversity reward based on contrastive learning to effectively drive agents to discern existing skills, and a particle-based exploration reward to access and learn new behaviors. Moreover, a novel dynamic weighting mechanism between the above two rewards is proposed for diversity-exploration balance, which further improves behavioral quality. Extensive experiments and analysis demonstrate that ComSD can generate diverse behaviors at different exploratory levels for complex multi-joint robots, enabling state-of-the-art performance across 32 challenging downstream adaptation tasks, which recent advanced methods cannot. Codes will be opened after publication.

arxiv情報

著者 Xin Liu,Yaran Chen,Dongbin Zhao
発行日 2024-05-19 10:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク