要約
生成モデリングベースの視覚運動ポリシーは、マルチモーダルアクション分布をモデル化する能力に起因するロボット操作で広く採用されています。
ただし、マルチステップサンプリングの推論コストが高いため、リアルタイムロボットシステムでの適用性が制限されます。
この問題に対処するために、既存のアプローチは、イメージ生成用に元々開発された加速度技術を適応させることにより、生成モデリングベースの視覚運動ポリシーのサンプリングプロセスを加速します。
この進歩にもかかわらず、大きな区別は残ります。画像生成は通常、時間的依存性のない独立したサンプルを生成することを伴いますが、ロボット操作には、連続性と時間的一貫性を必要とする時系列アクション軌跡を生成することが含まれます。
ロボット操作で一時的な情報を効果的に活用するために、FreqPolicyを提案します。FreqPolicyは、最初にフローベースの視覚運動ポリシーに周波数一貫性の制約を課す新しいアプローチを提案します。
私たちの作業により、アクションモデルは、効率的で高品質のワンステップアクション生成をサポートしながら、時間構造を効果的にキャプチャできます。
フローに沿ったさまざまなタイムステップ全体にわたって周波数ドメインアクション機能のアラインメントを強制する周波数一貫性の制約を導入し、それにより、ターゲット分布へのワンステップアクション生成の収束を促進します。
さらに、ロボット操作タスクに固有の構造的時間的変動をキャプチャするために、適応的な一貫性の損失を設計します。
3つのシミュレーションベンチマークにわたる53のタスクでFreqPolicyを評価し、既存の1段階のアクションジェネレーターに対するその優位性を証明します。
さらに、FreqPolicyをVision-Language-active(VLA)モデルに統合し、Liberoの40のタスクでパフォーマンスを低下させることなく加速を達成します。
その上、推論頻度93.5Hzの現実世界のロボットシナリオの効率と有効性を示します。
コードは公開されます。
要約(オリジナル)
Generative modeling-based visuomotor policies have been widely adopted in robotic manipulation attributed to their ability to model multimodal action distributions. However, the high inference cost of multi-step sampling limits their applicability in real-time robotic systems. To address this issue, existing approaches accelerate the sampling process in generative modeling-based visuomotor policies by adapting acceleration techniques originally developed for image generation. Despite this progress, a major distinction remains: image generation typically involves producing independent samples without temporal dependencies, whereas robotic manipulation involves generating time-series action trajectories that require continuity and temporal coherence. To effectively exploit temporal information in robotic manipulation, we propose FreqPolicy, a novel approach that first imposes frequency consistency constraints on flow-based visuomotor policies. Our work enables the action model to capture temporal structure effectively while supporting efficient, high-quality one-step action generation. We introduce a frequency consistency constraint that enforces alignment of frequency-domain action features across different timesteps along the flow, thereby promoting convergence of one-step action generation toward the target distribution. In addition, we design an adaptive consistency loss to capture structural temporal variations inherent in robotic manipulation tasks. We assess FreqPolicy on 53 tasks across 3 simulation benchmarks, proving its superiority over existing one-step action generators. We further integrate FreqPolicy into the vision-language-action (VLA) model and achieve acceleration without performance degradation on the 40 tasks of Libero. Besides, we show efficiency and effectiveness in real-world robotic scenarios with an inference frequency 93.5Hz. The code will be publicly available.
arxiv情報
著者 | Yifei Su,Ning Liu,Dong Chen,Zhen Zhao,Kun Wu,Meng Li,Zhiyuan Xu,Zhengping Che,Jian Tang |
発行日 | 2025-06-10 14:12:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google