Usage-Specific Survival Modeling Based on Operational Data and Neural Networks

要約

コンポーネントがいつ故障するかを正確に予測することは、メンテナンスを計画する際に非常に重要であり、これらの故障時間の分布をモデル化することにより、生存モデルはこの状況で特に有用であることが示されています。
提示された方法論は、スナップショットと呼ばれる特定の時間に継続的に収集および保存されるデータを使用してトレーニングされる、従来のニューラル ネットワーク ベースの生存モデルに基づいています。
このタイプのトレーニング データの重要な特性は、特定の個人からの複数のスナップショットが含まれる可能性があり、データが独立していないため、標準の最尤トレーニングを直接適用できないことです。
ただし、論文は、データがすべてのスナップショット時間がすべての個人で同じである特定の形式 (均質サンプリングと呼ばれる) である場合、最尤トレーニングを適用して望ましい結果を生み出すことができることを示しています。
多くの場合、データは均一にサンプリングされていません。この場合、データを均一にサンプリングするためにデータを再サンプリングすることが提案されます。
データセットがどのくらいの密度でサンプリングされるかが重要なパラメーターであることがわかります。
良い結果が得られるように十分な大きさを選択する必要がありますが、これによりデータセットのサイズも大きくなり、トレーニングが遅くなります。
トレーニング中に必要なサンプル数を減らすために、この論文では、トレーニングの開始前にデータセットを 1 回リサンプリングする代わりに、トレーニング中の各エポックの開始時にデータセットをランダムにリサンプリングする手法も提案しています。
提案された方法論は、スターター バッテリー故障のシミュレートされたデータセットと実験データセットの両方で評価されます。
結果は、データが均一にサンプリングされている場合、方法論が意図したとおりに機能し、正確な生存モデルを生成することを示しています。
この結果は、各エポックでデータセットをランダムにリサンプリングすることがトレーニング データのサイズを削減する効果的な方法であることも示しています。

要約(オリジナル)

Accurate predictions of when a component will fail are crucial when planning maintenance, and by modeling the distribution of these failure times, survival models have shown to be particularly useful in this context. The presented methodology is based on conventional neural network-based survival models that are trained using data that is continuously gathered and stored at specific times, called snapshots. An important property of this type of training data is that it can contain more than one snapshot from a specific individual which results in that standard maximum likelihood training can not be directly applied since the data is not independent. However, the papers show that if the data is in a specific format where all snapshot times are the same for all individuals, called homogeneously sampled, maximum likelihood training can be applied and produce desirable results. In many cases, the data is not homogeneously sampled and in this case, it is proposed to resample the data to make it homogeneously sampled. How densely the dataset is sampled turns out to be an important parameter; it should be chosen large enough to produce good results, but this also increases the size of the dataset which makes training slow. To reduce the number of samples needed during training, the paper also proposes a technique to, instead of resampling the dataset once before the training starts, randomly resample the dataset at the start of each epoch during the training. The proposed methodology is evaluated on both a simulated dataset and an experimental dataset of starter battery failures. The results show that if the data is homogeneously sampled the methodology works as intended and produces accurate survival models. The results also show that randomly resampling the dataset on each epoch is an effective way to reduce the size of the training data.

arxiv情報

著者 Olov Holmer,Mattias Krysander,Erik Frisk
発行日 2024-03-27 16:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, stat.ML パーマリンク