Curriculum RL meets Monte Carlo Planning: Optimization of a Real World Container Management Problem

要約

この作業では、処理能力が限られている廃棄物ソーティング施設で安全で効率的なコンテナ管理を確保するために、推論時間衝突モデルで補強学習を強化します。
各コンテナには、オーバーフローリスクに対してより高いスループットをトレードオフする2つの最適な排出量があります。
従来の強化学習(RL)は、遅延した報酬、まばらな重要なイベント、高次元の不確実性の下で闘争に近づきます。
これらの課題に対処するために、(1)遅延した報酬とクラスの不均衡を処理するためにPPOエージェントを段階的にトレーニングするカリキュラム学習パイプライン、および(2)推測時間に使用されるオフラインのペア衝突モデルを最小限のオンラインコストで積極的に回避するために使用されるオフラインのペア衝突モデルを構成するハイブリッド方法を提案します。
実験結果は、ターゲットを絞った推論時間衝突チェックが衝突回避を大幅に改善し、安全性制限違反を減らし、高いスループットを維持し、さまざまなコンテナとPUの比率で効果的にスケーリングすることを示しています。
これらの調査結果は、実際の施設で安全で効率的なコンテナ管理システムを設計するための実用的なガイドラインを提供します。

要約(オリジナル)

In this work, we augment reinforcement learning with an inference-time collision model to ensure safe and efficient container management in a waste-sorting facility with limited processing capacity. Each container has two optimal emptying volumes that trade off higher throughput against overflow risk. Conventional reinforcement learning (RL) approaches struggle under delayed rewards, sparse critical events, and high-dimensional uncertainty — failing to consistently balance higher-volume empties with the risk of safety-limit violations. To address these challenges, we propose a hybrid method comprising: (1) a curriculum-learning pipeline that incrementally trains a PPO agent to handle delayed rewards and class imbalance, and (2) an offline pairwise collision model used at inference time to proactively avert collisions with minimal online cost. Experimental results show that our targeted inference-time collision checks significantly improve collision avoidance, reduce safety-limit violations, maintain high throughput, and scale effectively across varying container-to-PU ratios. These findings offer actionable guidelines for designing safe and efficient container-management systems in real-world facilities.

arxiv情報

著者 Abhijeet Pendyala,Tobias Glasmachers
発行日 2025-03-21 14:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク