A Vision Transformer-Based Approach to Bearing Fault Classification via Vibration Signals

要約

転がり軸受は、回転機械の最も重要なコンポーネントです。
欠陥のあるベアリングをタイムリーに特定することで、機械システム全体の誤動作を防ぐことができます。
機械部品の急速な進歩により、機械の状態監視分野はビッグデータの時代に突入しました。
大量のデータを扱う場合、手動の特徴抽出アプローチには、非効率的で不正確であるという欠点があります。
近年、ディープ ラーニング手法などのデータ駆動型手法が、インテリジェントな機械的障害検出に使用されて成功を収めています。
畳み込みニューラル ネットワーク (CNN) は、ベアリングの故障を検出して特定するために、以前の研究で主に使用されていました。
ただし、CNN モデルには、障害時の情報の管理に問題があり、分類結果が得られないという欠点があります。
この研究では、ベアリングの欠陥は、最先端のビジョン トランスフォーマー (ViT) を使用して分類されています。
ベアリングの欠陥は、ケース ウエスタン リザーブ大学 (CWRU) のベアリング破損研究所の実験データを使用して分類されました。
この研究では、通常のベアリング状態に加えて、負荷がゼロの状況下での 13 種類の欠陥を考慮しました。
短時間フーリエ変換 (STFT) を使用して、振動信号を 2D 時間-周波数画像に変換しました。
2D 時間-周波数画像は、ViT の入力パラメーターとして使用されます。
このモデルは全体で 98.8% の精度を達成しました。

要約(オリジナル)

Rolling bearings are the most crucial components of rotating machinery. Identifying defective bearings in a timely manner may prevent the malfunction of an entire machinery system. The mechanical condition monitoring field has entered the big data phase as a result of the fast advancement of machine parts. When working with large amounts of data, the manual feature extraction approach has the drawback of being inefficient and inaccurate. Data-driven methods like the Deep Learning method have been successfully used in recent years for mechanical intelligent fault detection. Convolutional neural networks (CNNs) were mostly used in earlier research to detect and identify bearing faults. The CNN model, however, suffers from the drawback of having trouble managing fault-time information, which results in a lack of classification results. In this study, bearing defects have been classified using a state-of-the-art Vision Transformer (ViT). Bearing defects were classified using Case Western Reserve University (CWRU) bearing failure laboratory experimental data. The research took into account 13 distinct kinds of defects under 0-load situations in addition to normal bearing conditions. Using the short-time Fourier transform (STFT), the vibration signals were converted into 2D time-frequency images. The 2D time-frequency images are used as input parameters for the ViT. The model achieved an overall accuracy of 98.8%.

arxiv情報

著者 Abid Hasan Zim,Aeyan Ashraf,Aquib Iqbal,Asad Malik,Minoru Kuribayashi
発行日 2022-08-15 08:37:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.SP パーマリンク