Anomaly component analysis

要約

機械学習とデータ分析の交差点である異常検出は、異常な動作を示す観測値を特定することを目的としています。
測定エラー、病気の発症、悪天候、生産品質のデフォルト(品目)または設備の故障、金融詐欺または危機的出来事のいずれであっても、それらをオンタイムで特定し隔離することは、産業および科学のほぼすべての分野において重要なタスクとなります。
かなりの量の文献が異常の検出に費やされていますが、その説明にはほとんど注意が払われません。
これは主に、タスクの本質的に教師なしの性質と、主成分分析 (PCA) などの探索的手法の堅牢性が低いことが原因です。
データの深さをスコアとして使用した、異常な観察の探索的分析に特化した新しい統計ツールを紹介します。
異常コンポーネント分析 (略して ACA) は、異常を最適に視覚化して説明する低次元のデータ表現を検索する方法です。
この低次元表現により、最先端の方法よりも優れた異常のグループの区別が可能になるだけでなく、変数が線形であるため、容易に解釈できる異常の説明も提供されます。
比較シミュレーションと実際のデータ研究において、ACA は文献に記載されている方法と比較して異常分析に有利であることも証明されています。

要約(オリジナル)

At the crossway of machine learning and data analysis, anomaly detection aims at identifying observations that exhibit abnormal behaviour. Be it measurement errors, disease development, severe weather, production quality default(s) (items) or failed equipment, financial frauds or crisis events, their on-time identification and isolation constitute an important task in almost any area of industry and science. While a substantial body of literature is devoted to detection of anomalies, little attention is payed to their explanation. This is the case mostly due to intrinsically non-supervised nature of the task and non-robustness of the exploratory methods like principal component analysis (PCA). We introduce a new statistical tool dedicated for exploratory analysis of abnormal observations using data depth as a score. Anomaly component analysis (shortly ACA) is a method that searches a low-dimensional data representation that best visualises and explains anomalies. This low-dimensional representation not only allows to distinguish groups of anomalies better than the methods of the state of the art, but as well provides a — linear in variables and thus easily interpretable — explanation for anomalies. In a comparative simulation and real-data study, ACA also proves advantageous for anomaly analysis with respect to methods present in the literature.

arxiv情報

著者 Romain Valla,Pavlo Mozharovskyi,Florence d’Alché-Buc
発行日 2023-12-26 17:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク