SortingEnv: An Extendable RL-Environment for an Industrial Sorting Process

要約

進化する空間における産業選別システムと研究エージェントの行動を最適化するように設計された新しい強化学習(RL)環境を提示します。
ソートプロセス内の材料の流れをシミュレートする際に、環境は、ベルト速度や占有レベルなどの運用パラメーターを備えたデジタルツインのアイデアに従います。
実際の課題を反映するために、新しいセンサーや高度な機械などの産業用セットアップに一般的なアップグレードを統合します。
したがって、2つのバリエーションが含まれます。個別のベルト速度調整に焦点を当てた基本バージョンと、複数のソートモードと材料組成の強化を導入する高度なバージョンです。
両方の環境の観測スペース、状態の更新メカニズム、報酬機能について詳しく説明します。
さらに、古典的なルールベースのエージェント(RBA)と比較して、近位ポリシー最適化(PPO)、Deep-Q-Networks(DQN)、Advantage Actor Critic(A2C)などの一般的なRLアルゴリズムの効率を評価します。
このフレームワークは、産業プロセスの最適化に役立つだけでなく、進化する環境でエージェントの行動と移転性を研究するための基盤を提供し、モデルのパフォーマンスと実際のRLアプリケーションの実用的な意味合いに関する洞察を提供します。

要約(オリジナル)

We present a novel reinforcement learning (RL) environment designed to both optimize industrial sorting systems and study agent behavior in evolving spaces. In simulating material flow within a sorting process our environment follows the idea of a digital twin, with operational parameters like belt speed and occupancy level. To reflect real-world challenges, we integrate common upgrades to industrial setups, like new sensors or advanced machinery. It thus includes two variants: a basic version focusing on discrete belt speed adjustments and an advanced version introducing multiple sorting modes and enhanced material composition observations. We detail the observation spaces, state update mechanisms, and reward functions for both environments. We further evaluate the efficiency of common RL algorithms like Proximal Policy Optimization (PPO), Deep-Q-Networks (DQN), and Advantage Actor Critic (A2C) in comparison to a classical rule-based agent (RBA). This framework not only aids in optimizing industrial processes but also provides a foundation for studying agent behavior and transferability in evolving environments, offering insights into model performance and practical implications for real-world RL applications.

arxiv情報

著者 Tom Maus,Nico Zengeler,Tobias Glasmachers
発行日 2025-03-13 15:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク