要約
この論文では、従来は単一目的強化学習 (RL) が主流であった領域であるインフラストラクチャ保守最適化のための多目的強化学習 (MORL) 手法である、多目的ディープ集中マルチエージェント アクタークリティック (MO-DCMAC) を紹介します。
)が近づいてきます。
以前の単一目的 RL 手法は、報酬整形を通じて崩壊の確率やコストなどの複数の目的を単一の報酬信号に結合します。
対照的に、MO-DCMAC は、効用関数が非線形の場合でも、複数の目的に合わせてポリシーを直接最適化できます。
崩壊確率とコストを入力として使用する 2 つのユーティリティ関数を使用して MO-DCMAC を評価しました。
最初のユーティリティ関数はしきい値ユーティリティです。MO-DCMAC は、崩壊の確率がしきい値を超えないようにコストを最小限に抑える必要があります。
2 つ目は、資産管理者が保守計画を評価するために使用する故障モード、影響、重大度分析 (FMECA) 手法に基づいています。
私たちは、アムステルダムの歴史的な岸壁のケーススタディに基づく環境を含む複数のメンテナンス環境で、両方のユーティリティ機能を備えた MO-DCMAC を評価しました。
MO-DCMAC のパフォーマンスは、メンテナンス プランの構築に現在使用されているヒューリスティックに基づいて、複数のルールベースのポリシーと比較されました。
私たちの結果は、MO-DCMAC がさまざまな環境やユーティリティ機能にわたって従来のルールベースのポリシーよりも優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
In this paper, we introduce Multi-Objective Deep Centralized Multi-Agent Actor-Critic (MO- DCMAC), a multi-objective reinforcement learning (MORL) method for infrastructural maintenance optimization, an area traditionally dominated by single-objective reinforcement learning (RL) approaches. Previous single-objective RL methods combine multiple objectives, such as probability of collapse and cost, into a singular reward signal through reward-shaping. In contrast, MO-DCMAC can optimize a policy for multiple objectives directly, even when the utility function is non-linear. We evaluated MO-DCMAC using two utility functions, which use probability of collapse and cost as input. The first utility function is the Threshold utility, in which MO-DCMAC should minimize cost so that the probability of collapse is never above the threshold. The second is based on the Failure Mode, Effects, and Criticality Analysis (FMECA) methodology used by asset managers to asses maintenance plans. We evaluated MO-DCMAC, with both utility functions, in multiple maintenance environments, including ones based on a case study of the historical quay walls of Amsterdam. The performance of MO-DCMAC was compared against multiple rule-based policies based on heuristics currently used for constructing maintenance plans. Our results demonstrate that MO-DCMAC outperforms traditional rule-based policies across various environments and utility functions.
arxiv情報
著者 | Jesse van Remmerden,Maurice Kenter,Diederik M. Roijers,Charalampos Andriotis,Yingqian Zhang,Zaharah Bukhsh |
発行日 | 2025-01-08 15:28:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google