DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration

要約

模倣学習はロボット操作に大きな約束を示していますが、ポリシーの実行は、一般的に人間のオペレーターによって収集された遅刻のデモのために、しばしば不十分に遅くなります。
この作業では、エントロピー誘導デモンストレーションの加速を介して視覚運動政策の実行を加速するための自己監視方法であるDemospeedupを提示します。
Demospeedupは、通常のスピードデモンストレーションに関するarbitrary意的な生成ポリシー(ACTまたは拡散ポリシーなど)のトレーニングから始まります。これは、フレームごとのアクションエントロピー推定器として機能します。
重要な洞察は、より低いアクションエントロピー推定のフレームが、より一貫したポリシー行動を必要とすることです。
対照的に、より高いエントロピー推定値を持つフレームは、よりカジュアルなセクションに対応するため、より安全に加速することができます。
したがって、推定されたエントロピーに従って元のデモをセグメント化し、エントロピー値とともに増加する速度でダウンサンプリングすることにより、それらを加速します。
スピードアップデモンストレーションでトレーニングされた結果、結果のポリシーは、タスクの完了パフォーマンスを維持しながら、最大3倍高速で実行されます。
興味深いことに、これらのポリシーは、意思決定の地平線が減少することの利点により、通常の速度デモンストレーションで訓練されたポリシーよりも高い成功率を達成することさえできます。
プロジェクトページ:https://demospeedup.github.io/

要約(オリジナル)

Imitation learning has shown great promise in robotic manipulation, but the policy’s execution is often unsatisfactorily slow due to commonly tardy demonstrations collected by human operators. In this work, we present DemoSpeedup, a self-supervised method to accelerate visuomotor policy execution via entropy-guided demonstration acceleration. DemoSpeedup starts from training an arbitrary generative policy (e.g., ACT or Diffusion Policy) on normal-speed demonstrations, which serves as a per-frame action entropy estimator. The key insight is that frames with lower action entropy estimates call for more consistent policy behaviors, which often indicate the demands for higher-precision operations. In contrast, frames with higher entropy estimates correspond to more casual sections, and therefore can be more safely accelerated. Thus, we segment the original demonstrations according to the estimated entropy, and accelerate them by down-sampling at rates that increase with the entropy values. Trained with the speedup demonstrations, the resulting policies execute up to 3 times faster while maintaining the task completion performance. Interestingly, these policies could even achieve higher success rates than those trained with normal-speed demonstrations, due to the benefits of reduced decision-making horizons. Project Page: https://demospeedup.github.io/

arxiv情報

著者 Lingxiao Guo,Zhengrong Xue,Zijing Xu,Huazhe Xu
発行日 2025-06-10 10:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク