要約
多くの複雑なシナリオでは、ロボット操作は、複数の成功したアクションの分布を推定するために生成モデルに依存しています。
拡散モデルは他の生成モデルよりもトレーニングの堅牢性が優れているため、ロボットデモンストレーションを成功させることで模倣学習でうまく機能します。
ただし、拡散ベースのポリシーメソッドは通常、ロボット操作のリアルタイム応答を妨げるために、繰り返し除去ロボットアクションにかなりの時間を必要とします。
さらに、既存の拡散ポリシーは、時間変化のアクション除去プロセスをモデル化し、その時間的複雑さによりモデルトレーニングの難しさを高め、最適ではないアクション精度につながります。
ロボットアクションを効率的かつ正確に生成するために、アクション認識能力を利用して時間を維持した除去プロセスを構築する時間張りの拡散ポリシー(TUDP)を提示します。
一方では、追加のアクション差別情報を使用して、アクションスペースに時間を識別する速度フィールドを構築します。
アクションのすべてのタイムステップを統合することにより、速度フィールドはポリシー学習の難しさを減らし、アクション生成をスピードアップします。
一方、アクションごとのトレーニング方法を提案し、追加のアクション差別情報を提供するためのアクション差別分野を導入します。
アクションごとのトレーニングを通じて、TUDPは成功したアクションを識別して精度を改善する能力を暗黙的に学習します。
私たちの方法は、RLBenchで最先端のパフォーマンスを達成し、マルチビューセットアップで82.6%、シングルビューセットアップで83.8%の成功率が82.6%です。
特に、除去反復を使用する場合、TUDPは成功率をより大幅に改善します。
さらに、TUDPは、幅広い現実世界のタスクに対して正確なアクションを生成できます。
要約(オリジナル)
In many complex scenarios, robotic manipulation relies on generative models to estimate the distribution of multiple successful actions. As the diffusion model has better training robustness than other generative models, it performs well in imitation learning through successful robot demonstrations. However, the diffusion-based policy methods typically require significant time to iteratively denoise robot actions, which hinders real-time responses in robotic manipulation. Moreover, existing diffusion policies model a time-varying action denoising process, whose temporal complexity increases the difficulty of model training and leads to suboptimal action accuracy. To generate robot actions efficiently and accurately, we present the Time-Unified Diffusion Policy (TUDP), which utilizes action recognition capabilities to build a time-unified denoising process. On the one hand, we build a time-unified velocity field in action space with additional action discrimination information. By unifying all timesteps of action denoising, our velocity field reduces the difficulty of policy learning and speeds up action generation. On the other hand, we propose an action-wise training method, which introduces an action discrimination branch to supply additional action discrimination information. Through action-wise training, the TUDP implicitly learns the ability to discern successful actions to better denoising accuracy. Our method achieves state-of-the-art performance on RLBench with the highest success rate of 82.6% on a multi-view setup and 83.8% on a single-view setup. In particular, when using fewer denoising iterations, TUDP achieves a more significant improvement in success rate. Additionally, TUDP can produce accurate actions for a wide range of real-world tasks.
arxiv情報
著者 | Ye Niu,Sanping Zhou,Yizhe Li,Ye Den,Le Wang |
発行日 | 2025-06-11 06:11:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google