Block-wise Adaptive Caching for Accelerating Diffusion Policy

要約

拡散ポリシーは強力な視覚運動モデリング機能を実証していますが、その高い計算コストは​​、リアルタイムのロボット制御には非現実的になります。
繰り返しの除去ステップにわたる大きな冗長性にもかかわらず、既存の拡散加速手法は、基本的な建築とデータの相違により、拡散ポリシーに一般化できません。
この論文では、中間アクション機能をキャッシュすることにより拡散ポリシーを加速する方法であるブロックごとの適応キャッシュ(BAC)を提案します。
BACは、特徴がタイムステップとロック全体で不均一に異なるという重要な観察に基づいて、ブロックレベルでキャッシュされた機能を適応的に更新および再利用することにより、ロスレスアクションの加速を達成します。
この洞察を運用するために、最初に、キャッシュされた機能とスキップ機能の間のグローバルな機能の類似性を最大化することにより、最適な更新タイムステップを識別するように設計された適応型キャッシュスケジューラを提案します。
ただし、各ブロックにこのスケジューラを適用すると、特にフィードフォワードネットワーク(FFN)ブロック内で、キャッシュエラーがブロック間伝播するため、SigniffCantエラーの急増につながります。
この問題を軽減するために、バブリングユニオンアルゴリズムを開発します。これは、下流FFNの前にSigniffCantキャッシュエラーで上流のブロックを更新することにより、これらのエラーを切り捨てます。
トレーニングなしのプラグインとして、BACは既存の変圧器ベースの拡散ポリシーおよびビジョン言語アクションモデルと容易に統合できます。
複数のロボットベンチマークでの広範な実験は、BACが無料で最大3倍の推論スピードアップを達成することを示しています。

要約(オリジナル)

Diffusion Policy has demonstrated strong visuomotor modeling capabilities, but its high computational cost renders it impractical for real-time robotic control. Despite huge redundancy across repetitive denoising steps, existing diffusion acceleration techniques fail to generalize to Diffusion Policy due to fundamental architectural and data divergences. In this paper, we propose Block-wise Adaptive Caching(BAC), a method to accelerate Diffusion Policy by caching intermediate action features. BAC achieves lossless action generation acceleration by adaptively updating and reusing cached features at the block level, based on a key observation that feature similarities vary non-uniformly across timesteps and locks. To operationalize this insight, we first propose the Adaptive Caching Scheduler, designed to identify optimal update timesteps by maximizing the global feature similarities between cached and skipped features. However, applying this scheduler for each block leads to signiffcant error surges due to the inter-block propagation of caching errors, particularly within Feed-Forward Network (FFN) blocks. To mitigate this issue, we develop the Bubbling Union Algorithm, which truncates these errors by updating the upstream blocks with signiffcant caching errors before downstream FFNs. As a training-free plugin, BAC is readily integrable with existing transformer-based Diffusion Policy and vision-language-action models. Extensive experiments on multiple robotic benchmarks demonstrate that BAC achieves up to 3x inference speedup for free.

arxiv情報

著者 Kangye Ji,Yuan Meng,Hanyun Cui,Ye Li,Shengjia Hua,Lei Chen,Zhi Wang
発行日 2025-06-16 13:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク