要約
多くのアプリケーション、特に予測を含むアプリケーションでは、モデルはほぼ最適なパフォーマンスをもたらす可能性がありますが、個人レベルの結果には大幅に同意しない可能性があります。
予測多重性として知られるこの現象は、バイナリ、確率的、多ターゲット分類で正式に定義されており、予測システムの信頼性を損ないます。
ただし、その意味は、生存分析のコンテキストでは未開拓のままです。これには、検閲されたデータを適切に処理しながら、失敗または同様のイベントまでの時間を推定することが含まれます。
生存ベースのモデルにおける重要な懸念として予測的な多重性を枠組みし、それを定量化するために、曖昧さ、矛盾、およびあいまいさを正式に導入します。
これは、正確な個々のリスク推定値が不可欠なメンテナンススケジューリングなどの下流のタスクに特に関連しています。
予測多重性の理解と報告は、ハイステークス環境で展開されたモデルに信頼を築くのに役立ちます。
予測メンテナンスからのベンチマークデータセットに方法論を適用し、マルチプリティの概念をサバイバルモデルに拡張します。
私たちの調査結果は、あいまいさが着実に増加し、観察の最大40〜45%に達することを示しています。
矛盾は低くなりますが、同様の傾向を示します。
そして、あいまいさは軽度のままであり、いくつかのモデルに集中しています。
これらの結果は、複数の正確な生存モデルが、同じ機器の故障リスクと分解進行の矛盾する推定をもたらす可能性があることを示しています。
これは、プロセスの健康管理における信頼できる意思決定を確保するために、予測的な多重性を明示的に測定および伝達する必要性を強調しています。
要約(オリジナル)
In many applications, especially those involving prediction, models may yield near-optimal performance yet significantly disagree on individual-level outcomes. This phenomenon, known as predictive multiplicity, has been formally defined in binary, probabilistic, and multi-target classification, and undermines the reliability of predictive systems. However, its implications remain unexplored in the context of survival analysis, which involves estimating the time until a failure or similar event while properly handling censored data. We frame predictive multiplicity as a critical concern in survival-based models and introduce formal measures — ambiguity, discrepancy, and obscurity — to quantify it. This is particularly relevant for downstream tasks such as maintenance scheduling, where precise individual risk estimates are essential. Understanding and reporting predictive multiplicity helps build trust in models deployed in high-stakes environments. We apply our methodology to benchmark datasets from predictive maintenance, extending the notion of multiplicity to survival models. Our findings show that ambiguity steadily increases, reaching up to 40-45% of observations; discrepancy is lower but exhibits a similar trend; and obscurity remains mild and concentrated in a few models. These results demonstrate that multiple accurate survival models may yield conflicting estimations of failure risk and degradation progression for the same equipment. This highlights the need to explicitly measure and communicate predictive multiplicity to ensure reliable decision-making in process health management.
arxiv情報
著者 | Mustafa Cavus |
発行日 | 2025-04-16 15:04:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google