要約
大規模なデータセットで訓練された一般主義模倣学習ポリシーは、多様な操作タスクを解決するための大きな可能性を示しています。
ただし、さまざまな条件への一般化を確保するには、環境因子の変動の大きなセット(カメラポーズ、テーブルの高さ、ディストラクタなど)にわたって収集されたデータでポリシーをトレーニングする必要があります。
Factored Scaling Curves(FSC)を構築することにより、どのデータを収集するか、および各要素の収集量を決定するための原則的な方法を導入します。
これらの曲線は、特定の予算内で最も影響力のある要因の組み合わせに対してターゲットを絞ったデータ取得を可能にします。
Scratchと微調整の両方の設定の両方で、広範なシミュレーションおよび実世界の実験を通じて提案された方法を評価し、既存のデータ収集戦略よりも最大26%新しい環境で成功率を高めることを示します。
さらに、実際の評価を大規模に評価することなく、オフラインメトリックを使用して、因数分解されたスケーリング曲線がどのようにデータ収集を効果的に導くことができるかを示します。
要約(オリジナル)
Generalist imitation learning policies trained on large datasets show great promise for solving diverse manipulation tasks. However, to ensure generalization to different conditions, policies need to be trained with data collected across a large set of environmental factor variations (e.g., camera pose, table height, distractors) $-$ a prohibitively expensive undertaking, if done exhaustively. We introduce a principled method for deciding what data to collect and how much to collect for each factor by constructing factored scaling curves (FSC), which quantify how policy performance varies as data scales along individual or paired factors. These curves enable targeted data acquisition for the most influential factor combinations within a given budget. We evaluate the proposed method through extensive simulated and real-world experiments, across both training-from-scratch and fine-tuning settings, and show that it boosts success rates in real-world tasks in new environments by up to 26% over existing data-collection strategies. We further demonstrate how factored scaling curves can effectively guide data collection using an offline metric, without requiring real-world evaluation at scale.
arxiv情報
著者 | Lihan Zha,Apurva Badithela,Michael Zhang,Justin Lidard,Jeremy Bao,Emily Zhou,David Snyder,Allen Z. Ren,Dhruv Shah,Anirudha Majumdar |
発行日 | 2025-05-12 16:36:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google