要約
ノイズ除去拡散プロセスを使用したロボット工学における意思決定は、ますますホットな研究テーマになっていますが、エンドツーエンドのポリシーは、接触が多いタスクではパフォーマンスが低く、制御性も限られています。
この論文は、ロボット軌道の生成をガイドするために客観的な接触を使用する新しい模倣学習方法である階層的拡散ポリシー (HDP) を提案します。
ポリシーは 2 層に分かれており、上位ポリシーは 3D 情報に基づいてロボットの次の物体操作の接触を予測し、下位ポリシーは観測の潜在変数に基づいて上位接触に向けた行動順序を予測します。
そして連絡してください。
両方のレベルのポリシーを条件付きノイズ除去拡散プロセスとして表し、行動クローニングと Q 学習を組み合わせて、接触に向けてアクションを正確に導くための低レベル ポリシーを最適化します。
6 つの異なるタスクにわたって階層型拡散ポリシーのベンチマークを行ったところ、既存の最先端の模倣学習手法である拡散ポリシーを平均 20.8% 向上させて大幅に優れていることがわかりました。
接触ガイダンスにより、特に接触の多いタスクにおいて、優れたパフォーマンス、より優れた解釈可能性、より強力な制御性などの大幅な改善がもたらされることがわかりました。
HDP の可能性をさらに引き出すために、このホワイト ペーパーでは、スナップショット勾配の最適化、3D コンディショニング、プロンプト ガイダンスなど、ポリシーの最適化効率、空間認識、制御性をそれぞれ向上させる一連の主要な技術的貢献を提案します。
最後に、実際の実験により、HDP が剛体と変形可能なオブジェクトの両方を処理できることが検証されます。
要約(オリジナル)
Decision-making in robotics using denoising diffusion processes has increasingly become a hot research topic, but end-to-end policies perform poorly in tasks with rich contact and have limited controllability. This paper proposes Hierarchical Diffusion Policy (HDP), a new imitation learning method of using objective contacts to guide the generation of robot trajectories. The policy is divided into two layers: the high-level policy predicts the contact for the robot’s next object manipulation based on 3D information, while the low-level policy predicts the action sequence toward the high-level contact based on the latent variables of observation and contact. We represent both level policies as conditional denoising diffusion processes, and combine behavioral cloning and Q-learning to optimize the low level policy for accurately guiding actions towards contact. We benchmark Hierarchical Diffusion Policy across 6 different tasks and find that it significantly outperforms the existing state of-the-art imitation learning method Diffusion Policy with an average improvement of 20.8%. We find that contact guidance yields significant improvements, including superior performance, greater interpretability, and stronger controllability, especially on contact-rich tasks. To further unlock the potential of HDP, this paper proposes a set of key technical contributions including snapshot gradient optimization, 3D conditioning, and prompt guidance, which improve the policy’s optimization efficiency, spatial awareness, and controllability respectively. Finally, real world experiments verify that HDP can handle both rigid and deformable objects.
arxiv情報
著者 | Dexin Wang,Chunsheng Liu,Faliang Chang,Yichen Xu |
発行日 | 2024-11-20 02:19:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google