Understanding the limitations of self-supervised learning for tabular anomaly detection

要約

自己教師あり学習により、コンピューター ビジョンや自然言語処理における異常検出が向上しましたが、表形式データが自己教師あり学習から恩恵を受けることができるかどうかは不明です。
このペーパーでは、表形式の異常検出における自己監視の限界について検討します。
なぜそうなるのかを理解するために、26 のベンチマーク データセットに対してさまざまな口実タスクにわたるいくつかの実験を実施しました。
私たちの結果は、自己監視から得られた表現が、データの生の表現を使用する場合と比較して、表形式の異常検出パフォーマンスを向上させないことを確認しています。
これは、ニューラル ネットワークが無関係な特徴を導入しており、異常検出器の有効性が低下していることが原因であることを示します。
ただし、ニューラル ネットワークの表現の部分空間を使用するとパフォーマンスを回復できることを示します。

要約(オリジナル)

While self-supervised learning has improved anomaly detection in computer vision and natural language processing, it is unclear whether tabular data can benefit from it. This paper explores the limitations of self-supervision for tabular anomaly detection. We conduct several experiments spanning various pretext tasks on 26 benchmark datasets to understand why this is the case. Our results confirm representations derived from self-supervision do not improve tabular anomaly detection performance compared to using the raw representations of the data. We show this is due to neural networks introducing irrelevant features, which reduces the effectiveness of anomaly detectors. However, we demonstrate that using a subspace of the neural network’s representation can recover performance.

arxiv情報

著者 Kimberly T. Mai,Toby Davies,Lewis D. Griffin
発行日 2023-09-15 13:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク