3D Operation of Autonomous Excavator based on Reinforcement Learning through Independent Reward for Individual Joints

要約

本稿では、強化学習に基づく制御アルゴリズムを提案し、関節ごとに独立した報酬を用いて3次元空間で掘削機を制御します。
本研究の目的は、建設現場で広く活用されている油圧ショベルですが、油圧構造のため精密な制御が難しい掘削機の精密制御の実現に伴う課題に取り組むことです。
従来の方法では、掘削機を正確に操作するためにオペレーターの専門知識が必要であり、安全上の事故が発生することがありました。
したがって、方程式に基づく制御アルゴリズムを通じて正確な掘削機制御を達成するための努力がなされてきた。
しかし、これらの方法には掘削機の物理値に関する事前情報が必要であるという制限があり、現場で使用される多様な掘削機には適していませんでした。
これらの制限を克服するために、私たちは、特定の機器に関する事前知識を必要とせず、代わりにデータを利用してモデルをトレーニングする強化学習ベースの制御方法を検討してきました。
それにもかかわらず、既存の強化学習ベースの手法ではキャビンスイングの回転が見落とされ、バケットのワークスペースが 2D 平面に限定されていました。
このように限られた領域内に制御が限定されると、建設現場でのアルゴリズムの適用性が低下します。
この問題は、バケット操作の以前の 2D 平面ワークスペースを 3D 空間に拡張し、キャビン スイングの回転を組み込むことで解決します。
作業スペースを 3D に拡張することで、掘削機は人間の介入を必要とせずに連続作業を実行できます。
この目的を達成するために、各関節に個別の目標が設定され、他の関節の学習の進行に関係なく、各関節の動作値を独立してトレーニングできるようになりました。

要約(オリジナル)

In this paper, we propose a control algorithm based on reinforcement learning, employing independent rewards for each joint to control excavators in a 3D space. The aim of this research is to address the challenges associated with achieving precise control of excavators, which are extensively utilized in construction sites but prove challenging to control with precision due to their hydraulic structures. Traditional methods relied on operator expertise for precise excavator operation, occasionally resulting in safety accidents. Therefore, there have been endeavors to attain precise excavator control through equation-based control algorithms. However, these methods had the limitation of necessitating prior information related to physical values of the excavator, rendering them unsuitable for the diverse range of excavators used in the field. To overcome these limitations, we have explored reinforcement learning-based control methods that do not demand prior knowledge of specific equipment but instead utilize data to train models. Nevertheless, existing reinforcement learning-based methods overlooked cabin swing rotation and confined the bucket’s workspace to a 2D plane. Control confined within such a limited area diminishes the applicability of the algorithm in construction sites. We address this issue by expanding the previous 2D plane workspace of the bucket operation into a 3D space, incorporating cabin swing rotation. By expanding the workspace into 3D, excavators can execute continuous operations without requiring human intervention. To accomplish this objective, distinct targets were established for each joint, facilitating the training of action values for each joint independently, regardless of the progress of other joint learning.

arxiv情報

著者 Yoonkyu Yoo,Donghwi Jung,Seong-Woo Kim
発行日 2024-06-28 11:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク