Towards Diverse Behaviors: A Benchmark for Imitation Learning with Human Demonstrations

要約

人間のデータを使った模倣学習は、ロボットに幅広いスキルを教える上で目覚ましい成功を収めていることが実証されています。
しかし、人間の行動に本来備わっている多様性は、マルチモーダルなデータ分布の出現をもたらし、それによって既存の模倣学習アルゴリズムにとって大きな課題となっています。
この多様性を効果的に捉えて再現するモデルの能力を定量化することは、依然として未解決の問題です。
この研究では、シミュレーション ベンチマーク環境と、マルチモーダルな動作を学習するモデルの能力を評価するために明示的に設計された、模倣学習のための多様な人間のデモンストレーション (D3IL) を備えた対応するデータセットを紹介します。
私たちの環境は、解決する必要がある複数のサブタスクを含むように設計されており、行動の多様性を高める複数のオブジェクトの操作を考慮しており、閉ループの感覚フィードバックに依存するポリシーによってのみ解決できます。
他の利用可能なデータセットには、これらの困難な特性の少なくとも 1 つが欠けています。
多様性の定量化の課題に対処するために、多様な動作を取得して再現するモデルの能力について貴重な洞察を提供する扱いやすい指標を導入します。
これらの指標は、模倣学習アルゴリズムの堅牢性と多用途性を評価する実用的な手段を提供します。
さらに、提案されたタスクスイートに関する最先端の手法の徹底的な評価を実施します。
この評価は、多様な行動を学習する能力を評価するためのベンチマークとして機能します。
私たちの発見は、人間のマルチモーダルな行動を捕捉して一般化するという複雑な問題に取り組む際のこれらの手法の有効性を明らかにし、将来の模倣学習アルゴリズムの設計に貴重な参考資料を提供します。

要約(オリジナル)

Imitation learning with human data has demonstrated remarkable success in teaching robots in a wide range of skills. However, the inherent diversity in human behavior leads to the emergence of multi-modal data distributions, thereby presenting a formidable challenge for existing imitation learning algorithms. Quantifying a model’s capacity to capture and replicate this diversity effectively is still an open problem. In this work, we introduce simulation benchmark environments and the corresponding Datasets with Diverse human Demonstrations for Imitation Learning (D3IL), designed explicitly to evaluate a model’s ability to learn multi-modal behavior. Our environments are designed to involve multiple sub-tasks that need to be solved, consider manipulation of multiple objects which increases the diversity of the behavior and can only be solved by policies that rely on closed loop sensory feedback. Other available datasets are missing at least one of these challenging properties. To address the challenge of diversity quantification, we introduce tractable metrics that provide valuable insights into a model’s ability to acquire and reproduce diverse behaviors. These metrics offer a practical means to assess the robustness and versatility of imitation learning algorithms. Furthermore, we conduct a thorough evaluation of state-of-the-art methods on the proposed task suite. This evaluation serves as a benchmark for assessing their capability to learn diverse behaviors. Our findings shed light on the effectiveness of these methods in tackling the intricate problem of capturing and generalizing multi-modal human behaviors, offering a valuable reference for the design of future imitation learning algorithms.

arxiv情報

著者 Xiaogang Jia,Denis Blessing,Xinkai Jiang,Moritz Reuss,Atalay Donat,Rudolf Lioutikov,Gerhard Neumann
発行日 2024-02-22 14:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク