A Latent Space Correlation-Aware Autoencoder for Anomaly Detection in Skewed Data

要約

高次元空間では正常なデータと異常を区別することが困難になるため、潜在空間における教師なし学習ベースの異常検出の重要性が高まっています。
潜在空間の異常を検出するための密度推定と距離に基づく方法の両方が過去に研究されてきました。
これらの方法は、入力データの貴重な特性を潜在空間に保持することが、テスト データのより適切な再構築に役立つことを証明しています。
さらに、現実世界のセンサー データは偏っており、本質的に非ガウスであるため、偏ったデータに対して平均ベースの推定器の信頼性が低くなります。
繰り返しますが、再構成誤差に基づく異常検出方法はユークリッド距離に依存していますが、これは特徴空間内の有用な相関情報を考慮しておらず、また、データがトレーニング分布から逸脱している場合にはデータを正確に再構成できません。
この研究では、再構築エラーベースのオートエンコーダの限界に対処し、堅牢な形式のマハラノビス距離 (MD) を利用して潜在的な次元相関を測定し、近距離と遠距離の両方の異常を効果的に検出するカーネル化オートエンコーダを提案します。
このハイブリッド損失は、低次元潜在空間内の元のデータの有用な相関情報を保存しながら、潜在空間のエントロピーを最大化することにより、潜在次元と高次元の事前データ空間の間の相互情報利得を最大化するという原理によって支援されます。

多目的関数には 2 つの目標があります。つまり、潜在特徴空間の相関情報をロバストな MD 距離の形式で測定し、同時に事前データ間の相互情報を最大化することで、元のデータ空間からの有用な相関情報を潜在空間に保存しようとします。
そして潜在空間。

要約(オリジナル)

Unsupervised learning-based anomaly detection in latent space has gained importance since discriminating anomalies from normal data becomes difficult in high-dimensional space. Both density estimation and distance-based methods to detect anomalies in latent space have been explored in the past. These methods prove that retaining valuable properties of input data in latent space helps in the better reconstruction of test data. Moreover, real-world sensor data is skewed and non-Gaussian in nature, making mean-based estimators unreliable for skewed data. Again, anomaly detection methods based on reconstruction error rely on Euclidean distance, which does not consider useful correlation information in the feature space and also fails to accurately reconstruct the data when it deviates from the training distribution. In this work, we address the limitations of reconstruction error-based autoencoders and propose a kernelized autoencoder that leverages a robust form of Mahalanobis distance (MD) to measure latent dimension correlation to effectively detect both near and far anomalies. This hybrid loss is aided by the principle of maximizing the mutual information gain between the latent dimension and the high-dimensional prior data space by maximizing the entropy of the latent space while preserving useful correlation information of the original data in the low-dimensional latent space. The multi-objective function has two goals — it measures correlation information in the latent feature space in the form of robust MD distance and simultaneously tries to preserve useful correlation information from the original data space in the latent space by maximizing mutual information between the prior and latent space.

arxiv情報

著者 Padmaksha Roy
発行日 2023-12-28 17:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク