Streaming Diffusion Policy: Fast Policy Synthesis with Variable Noise Diffusion Models

要約

普及モデルはロボットの模倣学習に急速に採用され、複雑な器用なタスクの自律的な実行を可能にします。
ただし、アクションの合成は遅くなることが多く、反復的なノイズ除去の多くのステップが必要となるため、高速な反応性ポリシーを必要とするタスクでモデルを使用できる範囲が制限されます。
これを回避するために、最近の研究では、政策の合成を加速するために拡散プロセスの蒸留をどのように使用できるかを調査しました。
ただし、蒸留は計算コストが高く、合成されたアクションの精度と多様性の両方に悪影響を与える可能性があります。
私たちは、部分的にノイズ除去されたアクション軌跡を生成する方が、完全な出力アクション軌跡よりも大幅に高速であるという洞察を活用して、ポリシー合成を加速する代替方法である SDP (ストリーミング拡散ポリシー) を提案します。
観測ごとに、私たちのアプローチは、さまざまなレベルのノイズ破損を伴う部分的にノイズが除去されたアクション軌跡を出力します。ここで、すぐに実行されるアクションにはノイズがありませんが、後続のアクションではノイズと不確実性のレベルが増加します。
以前に予測されたノイズの多い行動軌跡 (1 タイムステップずつロールオーバー) にノイズ除去のいくつかのステップを適用することで、新しい観測に対する部分的にノイズ除去された行動軌跡を迅速に生成できます。
シミュレーション設定と現実世界の設定の両方でパフォーマンスを維持しながら、ポリシー合成を劇的に高速化するこのアプローチの有効性を説明します。

要約(オリジナル)

Diffusion models have seen rapid adoption in robotic imitation learning, enabling autonomous execution of complex dexterous tasks. However, action synthesis is often slow, requiring many steps of iterative denoising, limiting the extent to which models can be used in tasks that require fast reactive policies. To sidestep this, recent works have explored how the distillation of the diffusion process can be used to accelerate policy synthesis. However, distillation is computationally expensive and can hurt both the accuracy and diversity of synthesized actions. We propose SDP (Streaming Diffusion Policy), an alternative method to accelerate policy synthesis, leveraging the insight that generating a partially denoised action trajectory is substantially faster than a full output action trajectory. At each observation, our approach outputs a partially denoised action trajectory with variable levels of noise corruption, where the immediate action to execute is noise-free, with subsequent actions having increasing levels of noise and uncertainty. The partially denoised action trajectory for a new observation can then be quickly generated by applying a few steps of denoising to the previously predicted noisy action trajectory (rolled over by one timestep). We illustrate the efficacy of this approach, dramatically speeding up policy synthesis while preserving performance across both simulated and real-world settings.

arxiv情報

著者 Sigmund H. Høeg,Yilun Du,Olav Egeland
発行日 2024-10-11 16:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク