Exploring Error Bits for Memory Failure Prediction: An In-Depth Correlative Study

要約

大規模なデータセンターでは、メモリ障害がサーバー クラッシュの一般的な原因であり、訂正不能エラー (UE) がデュアル インライン メモリ モジュール (DIMM) の欠陥の主な指標となります。
既存のアプローチは主に、エラー ビットによって提供される情報を十分に考慮せずに、訂正可能なエラー (CE) を使用して UE を予測することに焦点を当てています。
ただし、エラー ビット パターンは、訂正不能エラー (UE) の発生と強い相関関係があります。
この論文では、CE と UE の間の相関関係に関する包括的な研究を紹介し、特に時空間エラー ビット情報の重要性を強調します。
私たちの分析により、時空間エラー ビットと UE の発生との間に強い相関関係があることが明らかになりました。
実世界のデータセットを使用した評価を通じて、私たちのアプローチは、最先端のアルゴリズムと比較して、F1 スコアで予測パフォーマンスが 15% 大幅に向上することを実証しました。
全体として、私たちのアプローチは、UE によって引き起こされる仮想マシンの中断の数を約 59% 効果的に削減します。

要約(オリジナル)

In large-scale datacenters, memory failure is a common cause of server crashes, with uncorrectable errors (UEs) being a major indicator of Dual Inline Memory Module (DIMM) defects. Existing approaches primarily focus on predicting UEs using correctable errors (CEs), without fully considering the information provided by error bits. However, error bit patterns have a strong correlation with the occurrence of uncorrectable errors (UEs). In this paper, we present a comprehensive study on the correlation between CEs and UEs, specifically emphasizing the importance of spatio-temporal error bit information. Our analysis reveals a strong correlation between spatio-temporal error bits and UE occurrence. Through evaluations using real-world datasets, we demonstrate that our approach significantly improves prediction performance by 15% in F1-score compared to the state-of-the-art algorithms. Overall, our approach effectively reduces the number of virtual machine interruptions caused by UEs by approximately 59%.

arxiv情報

著者 Qiao Yu,Wengui Zhang,Jorge Cardoso,Odej Kao
発行日 2023-12-05 16:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.DC, cs.LG パーマリンク