SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning

要約

模倣学習は、人間のデモンストレーションから多様な行動を取得できるようにすることにより、ロボット機能を進めます。
ただし、ポリシートレーニングに使用される大規模なデータセットは、多くの場合、品質に大きなばらつきをもたらし、パフォーマンスに悪影響を与える可能性があります。
その結果、低品質のサンプルをフィルタリングして品質を向上させることにより、データセットを自動的にキュレートすることが不可欠になります。
既存のロボットキュレーションアプローチは、コストのかかる手動注釈に依存し、データセットや軌跡レベルなどの粗い粒度でキュレーションを実行し、個々の状態アクションペアの品質を考慮していません。
これに対処するために、模倣学習ポリシーのパフォーマンスを向上させるために低品質の状態アクションペアを除去する自己監視データキュレーションフレームワークであるScizorを紹介します。
SCIZORは、低品質のデータの2つの補完的なソースをターゲットにしています。これは、望ましくないアクションで学習を妨げる最適下データと、トレーニングを反復パターンで希釈する冗長データです。
SCIZORは、非近似データの自己監視タスクの進行状況予測因子を活用して、タスクの進行を欠くサンプルと、冗長パターンのサンプルの共同状態アクション表現で動作する重複排除モジュールを削除します。
経験的には、Scizorが模倣学習ポリシーがより少ないデータでより高いパフォーマンスを達成することを可能にし、複数のベンチマークで15.4%の平均改善をもたらすことを示しています。
詳細については、https://ut-austin-rpl.github.io/scizor/をご覧ください。

要約(オリジナル)

Imitation learning advances robot capabilities by enabling the acquisition of diverse behaviors from human demonstrations. However, large-scale datasets used for policy training often introduce substantial variability in quality, which can negatively impact performance. As a result, automatically curating datasets by filtering low-quality samples to improve quality becomes essential. Existing robotic curation approaches rely on costly manual annotations and perform curation at a coarse granularity, such as the dataset or trajectory level, failing to account for the quality of individual state-action pairs. To address this, we introduce SCIZOR, a self-supervised data curation framework that filters out low-quality state-action pairs to improve the performance of imitation learning policies. SCIZOR targets two complementary sources of low-quality data: suboptimal data, which hinders learning with undesirable actions, and redundant data, which dilutes training with repetitive patterns. SCIZOR leverages a self-supervised task progress predictor for suboptimal data to remove samples lacking task progression, and a deduplication module operating on joint state-action representation for samples with redundant patterns. Empirically, we show that SCIZOR enables imitation learning policies to achieve higher performance with less data, yielding an average improvement of 15.4% across multiple benchmarks. More information is available at: https://ut-austin-rpl.github.io/SCIZOR/

arxiv情報

著者 Yu Zhang,Yuqi Xie,Huihan Liu,Rutav Shah,Michael Wan,Linxi Fan,Yuke Zhu
発行日 2025-05-28 17:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク