要約
視覚運動ポリシーの学習は、複雑なロボットの軌道をモデル化することで知られる拡散ベースのポリシーなどのアーキテクチャによって進歩しました。
ただし、推論時間が長くなることで、リアルタイムのフィードバックを必要とする高頻度の制御タスクが妨げられます。
整合性蒸留 (CD) は推論を加速しますが、アクションの品質を損なうエラーが発生します。
これらの制限に対処するために、私たちはスコアと分布のマッチング ポリシー (SDM ポリシー) を提案します。これは、2 段階の最適化プロセスを通じて拡散ベースのポリシーを単一ステップのジェネレーターに変換します。スコア マッチングは真のアクション分布との整合性を確保し、分布マッチングは最小化します。
一貫性のための KL ダイバージェンス。
デュアル教師メカニズムは、安定性を高めるために凍結された教師と、敵対的トレーニングのために凍結されていない教師を統合し、堅牢性とターゲットのディストリビューションとの整合性を強化します。
57 タスクのシミュレーション ベンチマークで評価された SDM Policy は、最先端のアクション品質を備えながら推論の 6 倍の高速化を実現し、高頻度のロボット タスクに効率的で信頼性の高いフレームワークを提供します。
要約(オリジナル)
Visual-motor policy learning has advanced with architectures like diffusion-based policies, known for modeling complex robotic trajectories. However, their prolonged inference times hinder high-frequency control tasks requiring real-time feedback. While consistency distillation (CD) accelerates inference, it introduces errors that compromise action quality. To address these limitations, we propose the Score and Distribution Matching Policy (SDM Policy), which transforms diffusion-based policies into single-step generators through a two-stage optimization process: score matching ensures alignment with true action distributions, and distribution matching minimizes KL divergence for consistency. A dual-teacher mechanism integrates a frozen teacher for stability and an unfrozen teacher for adversarial training, enhancing robustness and alignment with target distributions. Evaluated on a 57-task simulation benchmark, SDM Policy achieves a 6x inference speedup while having state-of-the-art action quality, providing an efficient and reliable framework for high-frequency robotic tasks.
arxiv情報
著者 | Bofang Jia,Pengxiang Ding,Can Cui,Mingyang Sun,Pengfang Qian,Siteng Huang,Zhaoxin Fan,Donglin Wang |
発行日 | 2024-12-19 12:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google