Deep Q-Learning versus Proximal Policy Optimization: Performance Comparison in a Material Sorting Task

要約

本論文では、2つの有名な深層強化学習(RL)アルゴリズムを比較した:本論文では、深層強化学習(RL)アルゴリズムであるDeep Q-Learning (DQN)とProximal Policy Optimization (PPO)を生産システムのシミュレーションで比較する。我々は、関連研究で以前に提案されたペトリネット(PN)ベースのシミュレーション環境を利用する。2つのアルゴリズムの性能を、正しく組み立てられソートされた製品の平均割合、平均エピソード長、成功したエピソードの割合など、いくつかの評価指標に基づいて比較する。その結果、すべての評価指標において、PPOがDQNを上回ることが示された。本研究は、高次元の状態・行動空間を持つ問題におけるポリシーベースアルゴリズムの優位性を強調するものである。本研究は、異なるアルゴリズムの有効性と異なるタスクへの適合性についての洞察を提供することにより、生産システムの文脈における深層RLの分野に貢献するものである。

要約(オリジナル)

This paper presents a comparison between two well-known deep Reinforcement Learning (RL) algorithms: Deep Q-Learning (DQN) and Proximal Policy Optimization (PPO) in a simulated production system. We utilize a Petri Net (PN)-based simulation environment, which was previously proposed in related work. The performance of the two algorithms is compared based on several evaluation metrics, including average percentage of correctly assembled and sorted products, average episode length, and percentage of successful episodes. The results show that PPO outperforms DQN in terms of all evaluation metrics. The study highlights the advantages of policy-based algorithms in problems with high-dimensional state and action spaces. The study contributes to the field of deep RL in context of production systems by providing insights into the effectiveness of different algorithms and their suitability for different tasks.

arxiv情報

著者 Reuf Kozlica,Stefan Wegenkittl,Simon Hirländer
発行日 2023-06-02 11:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SY, eess.SY パーマリンク