要約
核燃料装填パターンの最適化問題は、大規模な組み合わせ最適化のクラスに属します。
また、複数の目的と制約があるため、明示的に解決することが不可能であることも特徴です。
遺伝的アルゴリズムやシミュレーテッドアニーリングなどの確率的最適化手法は、さまざまな原子力事業者やベンダーによって使用されていますが、業界では引き続き手作業で設計されたソリューションが普及しています。
最先端の深層強化学習 (RL) を改善するために、特に近接ポリシー最適化が活用されます。
この研究は、ディープ RL を利用して荷重パターンの問題を解決する、これまでにないアプローチを提示しており、あらゆるエンジニアリング設計の最適化に活用できます。
この論文は、私たちの知る限り、RL アルゴリズムに影響を与えるいくつかのハイパーパラメータの動作の研究を提案した最初の論文でもあります。
このアルゴリズムは、コア設計に対して導出された目的関数の形状など、学習の安定性に影響を与えるごまかし要因として機能する複数の要因に大きく依存します。
また、エピソードごとにエージェントが確認する読み込みパターンの数、ポリシー更新前に収集されるサンプル数 nsteps、ランダム性を高めるエントロピー係数 ent_coef など、さまざまなパラメータを通じて現れる探索/悪用のトレードオフも考慮されます。
トレーニング中の方針。
RL は、取得関数がパラメータ化されたポリシーに置き換えられるガウス プロセスにも同様に適用する必要があることがわかりました。
次に、ハイパーパラメータの初期セットが見つかったら、学習が観察されなくなるまで nsteps と ent_coef を減らすと、ロバストかつ安定して最高のサンプル効率が得られます。
これにより、1 プラントあたり年間 535,000 ~ 642,000 ドルの経済的利益がもたらされました。
要約(オリジナル)
The nuclear fuel loading pattern optimization problem belongs to the class of large-scale combinatorial optimization. It is also characterized by multiple objectives and constraints, which makes it impossible to solve explicitly. Stochastic optimization methodologies including Genetic Algorithms and Simulated Annealing are used by different nuclear utilities and vendors, but hand-designed solutions continue to be the prevalent method in the industry. To improve the state-of-the-art, Deep Reinforcement Learning (RL), in particular, Proximal Policy Optimization is leveraged. This work presents a first-of-a-kind approach to utilize deep RL to solve the loading pattern problem and could be leveraged for any engineering design optimization. This paper is also to our knowledge the first to propose a study of the behavior of several hyper-parameters that influence the RL algorithm. The algorithm is highly dependent on multiple factors such as the shape of the objective function derived for the core design that behaves as a fudge factor that affects the stability of the learning. But also, an exploration/exploitation trade-off that manifests through different parameters such as the number of loading patterns seen by the agents per episode, the number of samples collected before a policy update nsteps, and an entropy factor ent_coef that increases the randomness of the policy during training. We found that RL must be applied similarly to a Gaussian Process in which the acquisition function is replaced by a parametrized policy. Then, once an initial set of hyper-parameters is found, reducing nsteps and ent_coef until no more learning is observed will result in the highest sample efficiency robustly and stably. This resulted in an economic benefit of 535,000- 642,000 $/year/plant.
arxiv情報
著者 | Paul Seurin,Koroush Shirvan |
発行日 | 2023-07-17 13:56:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google