Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning

要約

実践的な模倣学習 (IL) システムは、ポリシー学習を成功させるために大規模な人間のデモンストレーション データセットに依存しています。
ただし、収集されたデータの品質を維持し、データセット全体の品質、ひいては学習結果を損なう可能性がある一部のデモンストレーションの最適ではない性質に対処することが課題となります。
さらに、人間の行動の本質的な不均一性により、同じように成功しても異なるデモンストレーションが生成される可能性があり、デモンストレーションの品質を見極めるという課題がさらに悪化します。
これらの課題に対処するために、この文書では、さまざまな品質とスタイルのデモンストレーションから学習するためのオフライン模倣学習フレームワークである Learning to Discern (L2D) を紹介します。
まばらな品質ラベルを備えた小さなバッチのデモンストレーションが与えられると、時間的に埋め込まれた軌跡セグメントの潜在表現を学習します。
この潜在空間での好みの学習は、さまざまなスタイルを示す新しいデモンストレーターに一般化する品質評価者を訓練します。
私たちは経験的に、L2D がさまざまなデモンストレーションから効果的に評価および学習できることを示し、それによってシミュレーションと物理ロボットの両方でさまざまなタスクにわたるポリシーのパフォーマンスの向上につながります。

要約(オリジナル)

Practical Imitation Learning (IL) systems rely on large human demonstration datasets for successful policy learning. However, challenges lie in maintaining the quality of collected data and addressing the suboptimal nature of some demonstrations, which can compromise the overall dataset quality and hence the learning outcome. Furthermore, the intrinsic heterogeneity in human behavior can produce equally successful but disparate demonstrations, further exacerbating the challenge of discerning demonstration quality. To address these challenges, this paper introduces Learning to Discern (L2D), an offline imitation learning framework for learning from demonstrations with diverse quality and style. Given a small batch of demonstrations with sparse quality labels, we learn a latent representation for temporally embedded trajectory segments. Preference learning in this latent space trains a quality evaluator that generalizes to new demonstrators exhibiting different styles. Empirically, we show that L2D can effectively assess and learn from varying demonstrations, thereby leading to improved policy performance across a range of tasks in both simulations and on a physical robot.

arxiv情報

著者 Sachit Kuhar,Shuo Cheng,Shivang Chopra,Matthew Bronars,Danfei Xu
発行日 2023-10-22 06:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク