Learning Visual Tracking and Reaching with Deep Reinforcement Learning on a UR10e Robotic Arm

要約

技術の進歩に伴い、産業用および科学用ロボットがさまざまな環境で使用されることが増えています。
ただし、多くの場合、そのようなタスクを実行するロボットのプログラミングは技術的に複雑で、コストがかかります。
産業および科学の現場でロボットの有用性を最大限に高めるには、あるタスクから別のタスクに迅速に移行する能力が必要です。
強化学習アルゴリズムは、ロボットが直接再プログラムすることなく、新しいタスクを完了するための最適なソリューションを学習できる可能性をもたらします。
ただし、強化学習における現在の最先端技術は、一般に、最適なパフォーマンスを達成するために高速シミュレーションと並列化に依存しています。
これらは、ロボット工学アプリケーションでは不可能なことがよくあります。
したがって、産業用および科学用の強化学習ロボットの効率的かつ安全なトレーニングと展開を促進するには、かなりの量の研究が必要です。
この技術レポートでは、産業用 UR10e ロボットへの深層強化学習の適用に関する当社の初期研究の概要を説明します。
このレポートでは、ユニバーサル ロボットのロボット アームである UR10e を使用してポリシー学習を促進するために作成された強化学習環境について説明し、開発された強化学習環境でディープ Q ラーニングおよび近接ポリシー最適化エージェントをトレーニングした初期の結果を示します。
私たちの結果は、近接ポリシー最適化は、ディープ Q ラーニングよりも少ないデータで、より優れた、より安定したポリシーを学習することを示しています。
この作業に対応するコードは \url{https://github.com/cbellinger27/bendRL_reacher_tracker} で入手できます。

要約(オリジナル)

As technology progresses, industrial and scientific robots are increasingly being used in diverse settings. In many cases, however, programming the robot to perform such tasks is technically complex and costly. To maximize the utility of robots in industrial and scientific settings, they require the ability to quickly shift from one task to another. Reinforcement learning algorithms provide the potential to enable robots to learn optimal solutions to complete new tasks without directly reprogramming them. The current state-of-the-art in reinforcement learning, however, generally relies on fast simulations and parallelization to achieve optimal performance. These are often not possible in robotics applications. Thus, a significant amount of research is required to facilitate the efficient and safe, training and deployment of industrial and scientific reinforcement learning robots. This technical report outlines our initial research into the application of deep reinforcement learning on an industrial UR10e robot. The report describes the reinforcement learning environments created to facilitate policy learning with the UR10e, a robotic arm from Universal Robots, and presents our initial results in training deep Q-learning and proximal policy optimization agents on the developed reinforcement learning environments. Our results show that proximal policy optimization learns a better, more stable policy with less data than deep Q-learning. The corresponding code for this work is available at \url{https://github.com/cbellinger27/bendRL_reacher_tracker}

arxiv情報

著者 Colin Bellinger,Laurence Lamarche-Cliche
発行日 2023-08-28 15:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.RO, I.2 パーマリンク