要約
現実世界の産業リソース割り当てタスクからインスピレーションを得た強化学習のベンチマークである ContainerGym を紹介します。
提案されたベンチマークは、不確実性など、現実世界の逐次意思決定問題で一般的に遭遇するさまざまな課題をエンコードしています。
たとえば、可変次元の観点から、さまざまな難易度の問題をインスタンス化するように構成できます。
私たちのベンチマークは、現実世界の困難をエンコードすることを目的としたベンチマークを含む他の強化学習ベンチマークとは異なり、最小限の単純化と合理化を経た現実世界の産業問題から直接派生しています。
これは、リソース割り当てフレームワークに適合する現実世界の問題に対する強化学習アルゴリズムを評価するのに十分な多用途性を持っています。
標準ベースライン法の結果を提供します。
通常のトレーニング報酬曲線を超えて、私たちの結果とその解釈に使用された統計ツールにより、よく知られた深層強化学習アルゴリズム、つまり PPO、TRPO、DQN の興味深い制限を浮き彫りにすることができます。
要約(オリジナル)
We present ContainerGym, a benchmark for reinforcement learning inspired by a real-world industrial resource allocation task. The proposed benchmark encodes a range of challenges commonly encountered in real-world sequential decision making problems, such as uncertainty. It can be configured to instantiate problems of varying degrees of difficulty, e.g., in terms of variable dimensionality. Our benchmark differs from other reinforcement learning benchmarks, including the ones aiming to encode real-world difficulties, in that it is directly derived from a real-world industrial problem, which underwent minimal simplification and streamlining. It is sufficiently versatile to evaluate reinforcement learning algorithms on any real-world problem that fits our resource allocation framework. We provide results of standard baseline methods. Going beyond the usual training reward curves, our results and the statistical tools used to interpret them allow to highlight interesting limitations of well-known deep reinforcement learning algorithms, namely PPO, TRPO and DQN.
arxiv情報
| 著者 | Abhijeet Pendyala,Justin Dettmer,Tobias Glasmachers,Asma Atamna |
| 発行日 | 2023-07-06 13:44:29+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google