URPlanner: A Universal Paradigm For Collision-Free Robotic Motion Planning Based on Deep Reinforcement Learning

要約

複雑な環境での冗長ロボットマニピュレーターの衝突フリーモーションプランニングはまだ調査されていません。
ディープ補強学習(DRL)とロボット工学の交差点での最近の進歩は、汎用性のあるロボットタスクを処理する可能性を強調していますが、マニピュレーターの現在のDRLベースの衝突のないモーションプランナーは非常に費用がかかり、展開とアプリケーションが妨げられています。
これは、マニピュレーターと障害物の間の最小距離に過度に依存し、DRLによる不十分な探査と意思決定、および非効率的なデータ収集と利用のためです。
この記事では、DRLに基づく衝突のないロボットモーション計画の普遍的なパラダイムであるUrplannerを提案します。
Urplannerは、既存のアプローチよりもいくつかの利点を提供します。これは、プラットフォームに依存しており、トレーニングと展開の両方に費用対効果が高く、逆の運動学を解決せずに任意のマニピュレーターに適用できます。
これを達成するために、最初にパラメーター化されたタスク空間と最小距離とは無関係の普遍的な障害物回避報酬を開発します。
第二に、さまざまなDRLアルゴリズムに適用してパフォーマンスを向上させることができる拡張されたポリシー探索と評価アルゴリズムを紹介します。
第三に、効率的なポリシー学習のための専門家データ拡散戦略を提案します。これは、少数の専門家のデモのみから大規模な軌跡データセットを生成できる可能性があります。
最後に、提案された方法の優位性は、実験を通じて包括的に検証されます。

要約(オリジナル)

Collision-free motion planning for redundant robot manipulators in complex environments is yet to be explored. Although recent advancements at the intersection of deep reinforcement learning (DRL) and robotics have highlighted its potential to handle versatile robotic tasks, current DRL-based collision-free motion planners for manipulators are highly costly, hindering their deployment and application. This is due to an overreliance on the minimum distance between the manipulator and obstacles, inadequate exploration and decision-making by DRL, and inefficient data acquisition and utilization. In this article, we propose URPlanner, a universal paradigm for collision-free robotic motion planning based on DRL. URPlanner offers several advantages over existing approaches: it is platform-agnostic, cost-effective in both training and deployment, and applicable to arbitrary manipulators without solving inverse kinematics. To achieve this, we first develop a parameterized task space and a universal obstacle avoidance reward that is independent of minimum distance. Second, we introduce an augmented policy exploration and evaluation algorithm that can be applied to various DRL algorithms to enhance their performance. Third, we propose an expert data diffusion strategy for efficient policy learning, which can produce a large-scale trajectory dataset from only a few expert demonstrations. Finally, the superiority of the proposed methods is comprehensively verified through experiments.

arxiv情報

著者 Fengkang Ying,Hanwen Zhang,Haozhe Wang,Huishi Huang,Marcelo H. Ang Jr
発行日 2025-05-26 16:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク