Diverse Offline Imitation Learning

要約

多様性の尺度としてさまざまな情報理論的目標を利用する、教師なしスキル発見の分野で最近大きな進歩が見られました。
これらの進歩にもかかわらず、課題は残っています。現在の方法では、大規模なオンライン対話が必要であり、利用可能なタスクに依存しない膨大な量のデータを活用できず、通常、スキルの有用性を定量的に測定する手段が不足しています。
私たちは、多様性を最大化することに加えて、学習した各スキルが州のみの専門家のデモンストレーションをある程度模倣することを保証する、教師なしスキル発見のための原則に基づいたオフライン アルゴリズムを提案することで、これらの課題に対処します。
私たちの主な分析貢献は、フェンケル双対性、強化学習、教師なしスキル発見を結び付けて、KL ダイバージェンス状態占有制約に従う相互情報目標を最大化することです。
さらに、標準のオフライン ベンチマーク D4RL と、シミュレーションでトレーニングされたポリシーが実際のロボット システムに適切に転送される 12-DoF 四足ロボットから収集されたカスタム オフライン データセットで、私たちの方法の有効性を実証します。

要約(オリジナル)

There has been significant recent progress in the area of unsupervised skill discovery, utilizing various information-theoretic objectives as measures of diversity. Despite these advances, challenges remain: current methods require significant online interaction, fail to leverage vast amounts of available task-agnostic data and typically lack a quantitative measure of skill utility. We address these challenges by proposing a principled offline algorithm for unsupervised skill discovery that, in addition to maximizing diversity, ensures that each learned skill imitates state-only expert demonstrations to a certain degree. Our main analytical contribution is to connect Fenchel duality, reinforcement learning, and unsupervised skill discovery to maximize a mutual information objective subject to KL-divergence state occupancy constraints. Furthermore, we demonstrate the effectiveness of our method on the standard offline benchmark D4RL and on a custom offline dataset collected from a 12-DoF quadruped robot for which the policies trained in simulation transfer well to the real robotic system.

arxiv情報

著者 Marin Vlastelica,Jin Cheng,Georg Martius,Pavel Kolev
発行日 2023-10-23 17:44:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク