Data Quality in Imitation Learning

要約

教師あり学習では、インターネット規模のデータを取り込むことができるますます強力で表現力豊かなモデルによって、データの品質とキュレーションの問題が近年影を落としてきています。
ただし、ロボット工学のオフライン学習ではインターネット規模のデータが不足しているため、高品質のデータセットが必要です。
これは、専門家のデモンストレーションを使用したロボット学習のサンプル効率的なパラダイムである模倣学習 (IL) に特に当てはまります。
IL を通じて学習されたポリシーは、アクション予測の複合誤差によりテスト時に状態分布の変化が発生し、ポリシーが回復できない目に見えない状態が発生します。
分布の変化に対処する新しいアルゴリズムを設計する代わりに、データセットを評価してキュレーションする新しい方法を開発するという別の視点があります。
同じ IL アルゴリズムでも、異なるデータセット間ではパフォーマンスが大幅に異なる可能性があるという証拠が増えています。
これには、データキュレーションにさらに活用できる「データ品質」の指標を定義するための形式主義が必要です。
この研究では、分布シフトのレンズを通して模倣学習のためのデータ品質を形式化するための最初の一歩を踏み出します。高品質のデータセットは、テスト時に分布を維持するポリシーを促進します。
私たちは、データセットの品質を形作る 2 つの基本的な特性を提案します。 i) アクションの相違: 特定の状態における専門家と学習したポリシーの間の不一致。
ii) 遷移ダイバーシティ: 特定の状態およびアクションに対してシステム内に存在するノイズ。
私たちは、模倣学習におけるこれら 2 つの重要な特性の複合効果を理論的に調査し、さまざまな異なるデータ ソースでトレーニングされたモデルを経験的に分析します。
私たちは、状態の多様性が常に有益であるとは限らないことを示し、アクションの多様性と遷移の多様性が実際にどのように相互作用するかを示します。

要約(オリジナル)

In supervised learning, the question of data quality and curation has been over-shadowed in recent years by increasingly more powerful and expressive models that can ingest internet-scale data. However, in offline learning for robotics, we simply lack internet scale data, and so high quality datasets are a necessity. This is especially true in imitation learning (IL), a sample efficient paradigm for robot learning using expert demonstrations. Policies learned through IL suffer from state distribution shift at test time due to compounding errors in action prediction, which leads to unseen states that the policy cannot recover from. Instead of designing new algorithms to address distribution shift, an alternative perspective is to develop new ways of assessing and curating datasets. There is growing evidence that the same IL algorithms can have substantially different performance across different datasets. This calls for a formalism for defining metrics of ‘data quality’ that can further be leveraged for data curation. In this work, we take the first step toward formalizing data quality for imitation learning through the lens of distribution shift: a high quality dataset encourages the policy to stay in distribution at test time. We propose two fundamental properties that shape the quality of a dataset: i) action divergence: the mismatch between the expert and learned policy at certain states; and ii) transition diversity: the noise present in the system for a given state and action. We investigate the combined effect of these two key properties in imitation learning theoretically, and we empirically analyze models trained on a variety of different data sources. We show that state diversity is not always beneficial, and we demonstrate how action divergence and transition diversity interact in practice.

arxiv情報

著者 Suneel Belkhale,Yuchen Cui,Dorsa Sadigh
発行日 2023-06-04 18:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク