要約
強化学習では、報酬はタスクの最適なポリシーを示すことができるため、報酬形成はエージェントの学習プロセスをガイドする効率的な方法です。
ポテンシャルベースの報酬形成フレームワークは、報酬形成後のポリシーの不変性を保証するために提案されており、ポテンシャル関数を使用して形成報酬を計算します。
以前の研究では、学習プロセス中にエージェントによって収集された情報に基づいて、エージェントの学習と同時にポテンシャル関数を学習する新しい適応ポテンシャル関数 (APF) 手法を提案し、離散行動空間シナリオにおける APF 手法を検討しました。
この論文では、連続アクション空間を持つ現実世界のロボットシナリオで、連続到達タスクを解決する際に APF を使用する実現可能性を調査します。
Deep Deterministic Policy Gradient (DDPG) アルゴリズムと提案手法を組み合わせて、APF-DDPG と呼ばれる新しいアルゴリズムを形成します。
APF-DDPG と DDPG を比較するために、エージェントがゴール位置に到達するためにバクスターの右腕を制御する方法を学習するタスクを設計しました。
実験結果は、APF-DDPG アルゴリズムが学習速度と堅牢性の両方において DDPG アルゴリズムよりも優れていることを示しています。
要約(オリジナル)
In reinforcement learning, reward shaping is an efficient way to guide the learning process of an agent, as the reward can indicate the optimal policy of the task. The potential-based reward shaping framework was proposed to guarantee policy invariance after reward shaping, where a potential function is used to calculate the shaping reward. In former work, we proposed a novel adaptive potential function (APF) method to learn the potential function concurrently with training the agent based on information collected by the agent during the training process, and examined the APF method in discrete action space scenarios. This paper investigates the feasibility of using APF in solving continuous-reaching tasks in a real-world robotic scenario with continuous action space. We combine the Deep Deterministic Policy Gradient (DDPG) algorithm and our proposed method to form a new algorithm called APF-DDPG. To compare APF-DDPG with DDPG, we designed a task where the agent learns to control Baxter’s right arm to reach a goal position. The experimental results show that the APF-DDPG algorithm outperforms the DDPG algorithm on both learning speed and robustness.
arxiv情報
著者 | Yifei Chen,Lambert Schomaker,Francisco Cruz |
発行日 | 2024-02-07 04:44:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google