Capacity-Aware Planning and Scheduling in Budget-Constrained Monotonic MDPs: A Meta-RL Approach

要約

現実世界の逐次修復問題の多くは、単調マルコフ決定プロセス (MDP) を使用して効果的にモデル化できます。MDP では、システム状態は確率的に減少し、回復アクションを実行することによってのみ増加します。
この研究では、予算と容量の両方の制約がある複数コンポーネントの単調な MDP を解決するという問題に取り組んでいます。
予算制約は修復アクションの総数を制限し、容量制約は同時に実行できる修復アクションの数を制限します。
従来の方法では予算の制約に対処していましたが、従来の方法に容量の制約を含めると、MDP のコンポーネントの数が増加するにつれて計算の複雑さが指数関数的に増加します。
この課題に対処するために、2 段階の計画アプローチを提案します。
まず、マルチコンポーネント MDP のコンポーネントをグループに分割します。グループの数は容量の制約によって決まります。
この分割は、線形和割り当て問題 (LSAP) を解くことで実現します。
各グループには、その規模に比例した総予算の一部が割り当てられます。
この分割により、大規模な複数コンポーネントの MDP がより小さな部分問題に効果的に分離されます。これは、容量の制約が簡素化され、既存の方法を使用して予算の制約に対処できるため、計算的に実行可能です。
その後、メタトレーニングされた PPO エージェントを使用して、各グループにほぼ最適なポリシーを取得します。
私たちのアプローチを検証するために、限られた数の修理技術者と総修理予算によって制約される大規模な産業用ロボットの修理スケジュールの問題にそれを適用します。
我々の結果は、提案された方法が、ロボット群の平均稼働時間を最大化するという点で、特に群れサイズが大きい場合にベースラインアプローチよりも優れていることを示しています。

要約(オリジナル)

Many real-world sequential repair problems can be effectively modeled using monotonic Markov Decision Processes (MDPs), where the system state stochastically decreases and can only be increased by performing a restorative action. This work addresses the problem of solving multi-component monotonic MDPs with both budget and capacity constraints. The budget constraint limits the total number of restorative actions and the capacity constraint limits the number of restorative actions that can be performed simultaneously. While prior methods dealt with budget constraints, including capacity constraints in prior methods leads to an exponential increase in computational complexity as the number of components in the MDP grows. We propose a two-step planning approach to address this challenge. First, we partition the components of the multi-component MDP into groups, where the number of groups is determined by the capacity constraint. We achieve this partitioning by solving a Linear Sum Assignment Problem (LSAP). Each group is then allocated a fraction of the total budget proportional to its size. This partitioning effectively decouples the large multi-component MDP into smaller subproblems, which are computationally feasible because the capacity constraint is simplified and the budget constraint can be addressed using existing methods. Subsequently, we use a meta-trained PPO agent to obtain an approximately optimal policy for each group. To validate our approach, we apply it to the problem of scheduling repairs for a large group of industrial robots, constrained by a limited number of repair technicians and a total repair budget. Our results demonstrate that the proposed method outperforms baseline approaches in terms of maximizing the average uptime of the robot swarm, particularly for large swarm sizes.

arxiv情報

著者 Manav Vora,Ilan Shomorony,Melkior Ornik
発行日 2024-10-28 17:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク