要約
この研究は、マニピュレータの軌道計画における強化学習アルゴリズムの実装に関するものです。
未知の環境内のランダムな目標点にランダムに配置されたブロックを選択して配置するための 7-DOF ロボット アームがあります。
障害物はランダムに移動するため、オブジェクトを選択する際のハードルが高くなります。
ロボットの目的は、障害物を回避し、固定タイムスタンプの制約に従ってブロックを選択することです。
この文献では、深い決定論的ポリシー勾配 (DDPG) アルゴリズムを適用し、モデルの効率を密な報酬と疎な報酬で比較しました。
要約(オリジナル)
This study is about the implementation of a reinforcement learning algorithm in the trajectory planning of manipulators. We have a 7-DOF robotic arm to pick and place the randomly placed block at a random target point in an unknown environment. The obstacle is randomly moving which creates a hurdle in picking the object. The objective of the robot is to avoid the obstacle and pick the block with constraints to a fixed timestamp. In this literature, we have applied a deep deterministic policy gradient (DDPG) algorithm and compared the model’s efficiency with dense and sparse rewards.
arxiv情報
著者 | Osama Ahmad,Zawar Hussain,Hammad Naeem |
発行日 | 2024-03-25 11:40:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google