Constrained Intrinsic Motivation for Reinforcement Learning

要約

この論文では、報酬なし事前トレーニング (RFPT) タスクおよび内発的動機付けによる探索 (EIM) タスクにおける強化学習に内発的動機付け (IM) を利用するときに生じる 2 つの基本的な問題を調査します。 1) RFPT で効果的な内発的目標を設計する方法
タスク、および 2) EIM タスクの本質的な目的によってもたらされるバイアスを軽減する方法。
既存の IM 手法には、静的なスキル、限定された状態範囲、RFPT タスクのサンプルの非効率性、および EIM タスクの準最適性という問題があります。
これらの問題に取り組むために、RFPT タスクと EIM タスクに対してそれぞれ \emph{制約付き内発的動機付け (CIM)} を提案します。 1) RFPT の CIM は、状態エンコーダ ネットワーク上のアライメント制約に従う条件付き状態エントロピーの下限を最大化します。
効率的で動的かつ多様なスキルの発見と状態カバレッジの最大化。
2) EIM 用の CIM は、制約付きポリシーの最適化を利用して、固有の目的の係数を適応的に調整し、固有の目的からの注意散漫を軽減します。
さまざまな MuJoCo ロボット環境において、RFPT 用の CIM は、スキルの多様性、状態範囲、およびパフォーマンスの微調整の点で、教師なしスキル発見のための 15 の IM メソッドを大幅に上回ることが経験的に示されています。
さらに、タスクの報酬が最初から公開されている場合に、本質的な報酬を引き換える際の EIM に対する CIM の有効性を紹介します。
私たちのコードは https://github.com/x-zheng16/CIM で入手できます。

要約(オリジナル)

This paper investigates two fundamental problems that arise when utilizing Intrinsic Motivation (IM) for reinforcement learning in Reward-Free Pre-Training (RFPT) tasks and Exploration with Intrinsic Motivation (EIM) tasks: 1) how to design an effective intrinsic objective in RFPT tasks, and 2) how to reduce the bias introduced by the intrinsic objective in EIM tasks. Existing IM methods suffer from static skills, limited state coverage, sample inefficiency in RFPT tasks, and suboptimality in EIM tasks. To tackle these problems, we propose \emph{Constrained Intrinsic Motivation (CIM)} for RFPT and EIM tasks, respectively: 1) CIM for RFPT maximizes the lower bound of the conditional state entropy subject to an alignment constraint on the state encoder network for efficient dynamic and diverse skill discovery and state coverage maximization; 2) CIM for EIM leverages constrained policy optimization to adaptively adjust the coefficient of the intrinsic objective to mitigate the distraction from the intrinsic objective. In various MuJoCo robotics environments, we empirically show that CIM for RFPT greatly surpasses fifteen IM methods for unsupervised skill discovery in terms of skill diversity, state coverage, and fine-tuning performance. Additionally, we showcase the effectiveness of CIM for EIM in redeeming intrinsic rewards when task rewards are exposed from the beginning. Our code is available at https://github.com/x-zheng16/CIM.

arxiv情報

著者 Xiang Zheng,Xingjun Ma,Chao Shen,Cong Wang
発行日 2024-07-12 13:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク