要約
模倣学習ポリシーのパフォーマンスは、多くの場合、それらが訓練されているデータセットにかかっています。
その結果、ロボット工学のデータ収集への投資は、産業研究所と学術研究所の両方で増加しています。
しかし、収集されたデモンストレーションの量が著しく増加しているにもかかわらず、ビジョンや言語などの他の分野でその重要性の証拠を増やしているにもかかわらず、上記のデータの品質を評価しようとはほとんど求めていません。
この作業では、ロボット工学のデータ品質に対処するための重要な一歩を踏み出します。
デモンストレーションのデータセットを考えると、州の多様性とアクションの予測可能性の両方の観点から、個々のデモンストレーションの相対的な質を推定することを目指しています。
そのために、状態とデータセット全体の行動との相互情報への軌跡の平均貢献を推定します。これは、状態分布のエントロピーと状態条件付きアクションエントロピーの両方を正確に捉えています。
一般的に使用される相互情報推定値は、ロボット工学で利用可能なスケールを超えて膨大な量のデータを必要としますが、状態と行動の単純なVAE埋め込みに加えて、k-nearest neight emultionの推定値に基づく新しい手法を導入します。
経験的に、私たちのアプローチは、シミュレーションと現実世界環境にまたがる多様なベンチマークのセットにわたる人間の専門家スコアに従って、品質によってデモンストレーションデータセットを分割できることを実証します。
さらに、この方法でフィルタリングされたデータに基づいたトレーニングポリシーは、ロボミミックの5〜10%の改善と、実際のアロハとフランカのセットアップでのパフォーマンスの向上につながります。
要約(オリジナル)
The performance of imitation learning policies often hinges on the datasets with which they are trained. Consequently, investment in data collection for robotics has grown across both industrial and academic labs. However, despite the marked increase in the quantity of demonstrations collected, little work has sought to assess the quality of said data despite mounting evidence of its importance in other areas such as vision and language. In this work, we take a critical step towards addressing the data quality in robotics. Given a dataset of demonstrations, we aim to estimate the relative quality of individual demonstrations in terms of both state diversity and action predictability. To do so, we estimate the average contribution of a trajectory towards the mutual information between states and actions in the entire dataset, which precisely captures both the entropy of the state distribution and the state-conditioned entropy of actions. Though commonly used mutual information estimators require vast amounts of data often beyond the scale available in robotics, we introduce a novel technique based on k-nearest neighbor estimates of mutual information on top of simple VAE embeddings of states and actions. Empirically, we demonstrate that our approach is able to partition demonstration datasets by quality according to human expert scores across a diverse set of benchmarks spanning simulation and real world environments. Moreover, training policies based on data filtered by our method leads to a 5-10% improvement in RoboMimic and better performance on real ALOHA and Franka setups.
arxiv情報
著者 | Joey Hejna,Suvir Mirchandani,Ashwin Balakrishna,Annie Xie,Ayzaan Wahid,Jonathan Tompson,Pannag Sanketi,Dhruv Shah,Coline Devin,Dorsa Sadigh |
発行日 | 2025-02-18 18:24:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google