Autonomous Control of Redundant Hydraulic Manipulator Using Reinforcement Learning with Action Feedback

要約

この記事では、油圧作動を伴う冗長マニピュレーターの自律制御のための完全にデータ駆動型のアプローチを紹介します。
このアプローチでは、シミュレーションモデルから継承される最小限のシステム情報のみが必要です。
非線形油圧作動ダイナミクスは、マニピュレーターの手動操作中に収集されたデータからのアクチュエータネットワークを使用して、シミュレーション環境で実際のシステムを効果的にエミュレートしてモデル化されます。
次に、効率的な探索のためにOrnstein-Uhlenbeckプロセスノイズ(OUNOISE)を使用して、補強学習(RL)を使用して、エンドエフェクター(EE)位置追跡に基づく自律制御のニューラルネットワーク制御ポリシーが学習されます。
また、RLエージェントは、探査から最適な適切なアクションを選択することを容易にする、フォワード運動学の監視された学習に基づいてフィードバックを受け取ります。
制御ポリシーは、システムのダイナミクスを考慮しながら、提供されたターゲットEE位置に基づいて出力として共同変数を直接提供します。
その後、ジョイント変数は油圧バルブコマンドにマッピングされ、さらに変更せずにシステムに供給されます。
提案されたアプローチは、3次元(3D)空間でEEの望ましい位置を追跡するために、3つの反転と1つのプリズムジョイントを備えたスケーリングされた油圧転送クレーンに実装されます。
エミュレートされたダイナミクスとシミュレーションの広範な学習により、結果は、実際のシステムに学習コントローラーを直接展開する可能性を示しています。

要約(オリジナル)

This article presents an entirely data-driven approach for autonomous control of redundant manipulators with hydraulic actuation. The approach only requires minimal system information, which is inherited from a simulation model. The non-linear hydraulic actuation dynamics are modeled using actuator networks from the data gathered during the manual operation of the manipulator to effectively emulate the real system in a simulation environment. A neural network control policy for autonomous control, based on end-effector (EE) position tracking is then learned using Reinforcement Learning (RL) with Ornstein-Uhlenbeck process noise (OUNoise) for efficient exploration. The RL agent also receives feedback based on supervised learning of the forward kinematics which facilitates selecting the best suitable action from exploration. The control policy directly provides the joint variables as outputs based on provided target EE position while taking into account the system dynamics. The joint variables are then mapped to the hydraulic valve commands, which are then fed to the system without further modifications. The proposed approach is implemented on a scaled hydraulic forwarder crane with three revolute and one prismatic joint to track the desired position of the EE in 3-Dimensional (3D) space. With the emulated dynamics and extensive learning in simulation, the results demonstrate the feasibility of deploying the learned controller directly on the real system.

arxiv情報

著者 Rohit Dhakate,Christian Brommer,Christoph Böhm,Stephan Weiss,Jan Steinbrener
発行日 2025-04-22 08:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク